自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学 机器学习 数据挖掘 深度学习

一、统计学 采用特定统计手段对被测对象进行描述、推断以及预测,以达到对被测对象一定程度甚至趋近本质的了解 二、机器学习 通过计算机实现并采用特定算法发现被测对象的隐含规律和联系,并以此来作预测 三、数据挖掘 数据挖掘(Data Mining),顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在.

2021-11-04 21:25:25 457

原创 YARN的工作机制

YARN的工作机制 1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAppMaster。 (6)RM将用户的请求初始化成一个Task。 (7)其中一个NodeManager领取到Task...

2021-11-02 22:31:55 89

原创 HDFS的block和切片(split)的区别

HDFS的block和切片(split)的区别 split:Split是逻辑意义上的定义。split是把block切分而成的虚拟上的的定义,是MapReduce里的概念. 1. split是MapReduce里的概念,是切片的概念,split是逻辑切片 ;而block是hdfs中切块的大小,block是物理切块; 2. split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。 ..

2021-11-02 22:29:54 234

原创 节点距离计算

节点距离计算 节点距离:两个节点到达最近的共同祖先的距离总和

2021-11-02 22:26:58 165

原创 HDFS读数据流程

HDFS读数据流程 1、读取文件名称 2、向namenode获取文件第一批block位置,这个block会根据副本数返回对应数量的locations数,依据网络拓扑结构排序,距离client端的排在前面,   从原理来说,是通过DistributedFileSystem对象调用getFileBlockLocations来获取locations 3、获取距离clinet最近的datanode并与其建立通信,数据会源源不断的写入clinet端,假设第一个block读取完成,则关闭指向该dat...

2021-11-02 22:22:09 184

原创 HDFS写数据流程

HDFS写数据流程 Namelode:是HDFS中负责namespace管理的节点,保存集群中所储存的所有文件的元数据信息 Datanode:是一个在HDFS实例中单独机上运行的一个节点; packet:数据包 1.向namelode请求上传文件,namenode检查目录文件上传途径是否存在,文件是否存在; 2.nomenode做出应答(是否可以上传); 3.客户端切分文件,请求上传第一个block; 4.namenode返回dn(datanode)1、dn2、dn3,让用户上传数据; .

2021-10-26 21:25:05 266

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除