自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 2020-12-09

网络爬虫,又被称为“网页蜘蛛,网络机器人”,在FOAF社区中间,经常被称为“网页追逐者”。网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 网络爬虫,按照系统结构和实现技术,大致可以分为:“通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫”等四种不同类型。实际上,网络爬虫系统,通常是由几种爬虫技术相结合实现的。 ...

2020-12-09 16:27:07 60

原创 2020-11-17

Hadoop架构介绍 HDFS体系结构 采用Master-Slaver模式: NameNode中心服务器(Master):维护文件系统树、以及整棵树内的文件目录、负责整个数据集群的管理。 DataNode分布在不同的机架上(Slaver):在客户端或者NameNode的调度下,存储并检索数据块,并且定期向NameNode发送所存储的数据块的列表。 客户端与NameNode获取元数据; 与DataNode交互获取数据。 默认情况下,每个DataNode都保存了3个副本,其中两个保存在同一个机架的两个不同的节点

2020-11-17 16:20:06 48

原创 2020-11-10

Hadoop 是大规模并行执行框架,把超级计算机的能力带给大众,致力于加速企业级应用的执行。由于 Hadoop 提供如此广泛的功能,可以适用于解决大量问题,也可以说,Hadoop 是基础框架。Hadoop 提供所有这些功能,因此应该将 Hadoop 归类为一个生态系统,它包含大量的组件,从数据存储到数据集成、数据处理以及数据分析师的专用工具。 hadoop2.0它是基于YARN框架构建的。YARN的全称是Yet-Another-Resource-Negotiator。Yarn可以运用在S3|Spark等上。

2020-11-10 14:32:43 76

原创 2020-10-27

第一次上大数据的课让我心怀憧憬的进入了这个领域的第一步,大数据的概念,在这个发展迅速的时代促进了大数据技术的崛起。 通俗来说就是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理数据集合,具有4V的特征。 4V也就是Velocity、Variety、Value、Volume Velocity表示实时处理、速度(速率),含实时数据、流数据、离线数据。 Variety表示多数据类型交叉分析,含结构化、非结构化、半结构化。 Value表示海量数据挖掘与价值。 Volume表示数据类型与体积。用TB、PB、E

2020-10-27 21:19:23 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除