自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 统计学,机器学习,数据挖掘,深度学习的含义及关系。

1.统计学:是收集,分析,表述和解释数据的科学。统计学是一门处理数据的方法和技术的学科。任务是如何有效的收集,整理并且分析这些数据,探索数据内在的数量规律性,对所观察的现象做出推断或者预测,直到为采取决策提供依据。数据作为统计学的最基本的核心,反映了社会和自然现象总体的数量特征的信息表现,这是一门对总体现象数量特征进行计量描述和分析推论的科学。2.机器学习:机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知

2021-11-03 20:34:26 2850

原创 HDFS的block和切片(split)的区别

1.block是HDFS中切块的大小,是物理切块。split是逻辑切片。2.split的大小在默认的情况下和HDFS 的block切块大小一致,为了是Mapreduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。3.Block:当我们把文件上传到HDFS时,文件会被分块,这是真实的物理划分,每块的大小可与通过配置选项进行设置。Split:是逻辑意义上的split,通常在MR程序或者其他数据处理技术上用到,其大小是允许用户定义的,4.满足数据本地性的情况.

2021-11-02 23:30:35 345

原创 YARN的工作机制

1.MR程序提交到客户端所在节点,申请一个resource manager.2.提交job所需资源提交完毕后,申请运行mrAppMaster,将用户的请求初始化成一个task.3.领取到task任务,创建容器Container,下载job资源到本地,申请运行MapTask容器。4.领取到任务,创建容器(Map Task),发动程序启动脚本。5.向MR申请两个容器,运行Reduce task程序。6.reduce向map获取相应分区的数据,程序运行完成后,MR会向RM注销自己,任务结束。...

2021-11-02 22:43:59 70

原创 HDFS写数据流

1.客户端通过分布式文件系统向名称节点申请上传文件。2.名称节点响应客户端同意上传。3.客户端对文件按照指定大小进行切块(默认为128M),然后请求传输第一块。4.名称节点响应客户端同意上传并按文件指定的备份数分配服务器及返回信息。5.客户端请求第一个服务器,第一个服务器请求第二个服务器…最终形成一个链式的传输通道。6.各个服务器应答成功,按刚才的链式通道,依次向前返回应答信号,最终传到客户端。7.各个服务器传输完成,客户端将信息报给名称节点,名称节点将块的元数据存储起来。...

2021-11-02 21:30:49 73

原创 节点距离计算

1.同一机架的同一节点,距离为0.2.同一机架的不同节点,它们的共同祖先是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离是2.3.在同一集群的不同机架上的节点,他们的共同祖先是这个集群,而这两个节点要到达集群,首先要到达这个机架(结合2所述),接着再到达集群,所以两个节点距离为2+2=4.4.在同一数据中心的不同集群上的节点,它们的共同祖先是这个集群,结合以上几条所述,一个节点到数据中心的距离是3,两个节点的距离是3+3=6....

2021-11-02 18:02:15 156

原创 HDFS读数据流

1.使用HDFS提供的客户端,调用分布式文件系统对象中的Open()函数来读取所需数据。2.客户端向名称节点请求下载文件,名称节点通过查询元数据,找到文件所在的DateNode地址。3.挑选一台DateNode服务器开始以数据流的形式读取数据。4.DateNode开始传输数据给客户端,当第一个数据块读取完毕后,查找下一个离客户端最近的数据块,返回的时候会以远近进行排序。5.若数据过大,还有剩余部分未提取,会重复上述步骤直到全部读完。6.关闭文件,结束流程。...

2021-11-02 16:59:43 107

原创 2021-10-26

2021-10-26 22:53:09 41

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除