大数据导论作业
大数据导论作业
青争大哥(李文静)
这个作者很懒,什么都没留下…
展开
-
统计学 机器学习 数据挖掘 深度学习
一、统计学采用特定统计手段对被测对象进行描述、推断以及预测,以达到对被测对象一定程度甚至趋近本质的了解二、机器学习通过计算机实现并采用特定算法发现被测对象的隐含规律和联系,并以此来作预测三、数据挖掘数据挖掘(Data Mining),顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在.原创 2021-11-04 21:25:25 · 450 阅读 · 0 评论 -
YARN的工作机制
YARN的工作机制1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAppMaster。 (6)RM将用户的请求初始化成一个Task。 (7)其中一个NodeManager领取到Task...原创 2021-11-02 22:31:55 · 80 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
HDFS的block和切片(split)的区别split:Split是逻辑意义上的定义。split是把block切分而成的虚拟上的的定义,是MapReduce里的概念.1. split是MapReduce里的概念,是切片的概念,split是逻辑切片 ;而block是hdfs中切块的大小,block是物理切块;2. split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。..原创 2021-11-02 22:29:54 · 228 阅读 · 0 评论 -
节点距离计算
节点距离计算节点距离:两个节点到达最近的共同祖先的距离总和原创 2021-11-02 22:26:58 · 157 阅读 · 0 评论 -
HDFS读数据流程
HDFS读数据流程1、读取文件名称2、向namenode获取文件第一批block位置,这个block会根据副本数返回对应数量的locations数,依据网络拓扑结构排序,距离client端的排在前面, 从原理来说,是通过DistributedFileSystem对象调用getFileBlockLocations来获取locations3、获取距离clinet最近的datanode并与其建立通信,数据会源源不断的写入clinet端,假设第一个block读取完成,则关闭指向该dat...原创 2021-11-02 22:22:09 · 175 阅读 · 0 评论 -
HDFS写数据流程
HDFS写数据流程Namelode:是HDFS中负责namespace管理的节点,保存集群中所储存的所有文件的元数据信息Datanode:是一个在HDFS实例中单独机上运行的一个节点;packet:数据包1.向namelode请求上传文件,namenode检查目录文件上传途径是否存在,文件是否存在;2.nomenode做出应答(是否可以上传);3.客户端切分文件,请求上传第一个block;4.namenode返回dn(datanode)1、dn2、dn3,让用户上传数据;.原创 2021-10-26 21:25:05 · 260 阅读 · 0 评论