- 博客(6)
- 收藏
- 关注
原创 统计学 机器学习 数据挖掘 深度学习
一、统计学 采用特定统计手段对被测对象进行描述、推断以及预测,以达到对被测对象一定程度甚至趋近本质的了解 二、机器学习 通过计算机实现并采用特定算法发现被测对象的隐含规律和联系,并以此来作预测 三、数据挖掘 数据挖掘(Data Mining),顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在.
2021-11-04 21:25:25 457
原创 YARN的工作机制
YARN的工作机制 1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAppMaster。 (6)RM将用户的请求初始化成一个Task。 (7)其中一个NodeManager领取到Task...
2021-11-02 22:31:55 89
原创 HDFS的block和切片(split)的区别
HDFS的block和切片(split)的区别 split:Split是逻辑意义上的定义。split是把block切分而成的虚拟上的的定义,是MapReduce里的概念. 1. split是MapReduce里的概念,是切片的概念,split是逻辑切片 ;而block是hdfs中切块的大小,block是物理切块; 2. split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。 ..
2021-11-02 22:29:54 234
原创 HDFS读数据流程
HDFS读数据流程 1、读取文件名称 2、向namenode获取文件第一批block位置,这个block会根据副本数返回对应数量的locations数,依据网络拓扑结构排序,距离client端的排在前面, 从原理来说,是通过DistributedFileSystem对象调用getFileBlockLocations来获取locations 3、获取距离clinet最近的datanode并与其建立通信,数据会源源不断的写入clinet端,假设第一个block读取完成,则关闭指向该dat...
2021-11-02 22:22:09 184
原创 HDFS写数据流程
HDFS写数据流程 Namelode:是HDFS中负责namespace管理的节点,保存集群中所储存的所有文件的元数据信息 Datanode:是一个在HDFS实例中单独机上运行的一个节点; packet:数据包 1.向namelode请求上传文件,namenode检查目录文件上传途径是否存在,文件是否存在; 2.nomenode做出应答(是否可以上传); 3.客户端切分文件,请求上传第一个block; 4.namenode返回dn(datanode)1、dn2、dn3,让用户上传数据; .
2021-10-26 21:25:05 266
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人