- 博客(6)
- 收藏
- 关注
原创 YARN工作机制
ARN工作机制第一步 Client 向ResourceManage提交工作,并申请一个job ID第二步 ResourceManage返回资源提交路径和job ID,每一个job都有一个唯一的ID第三步 Client接受返回后,根据信息上传计算机所需要的资源到指定位置第四步 Client上传完毕后向ResourceManage发送执行作业请求,ResourceManage根据请求创建ApplicationManager来管理此job。第五步 新创建的ApplicationManager将
2021-11-05 18:37:39 158
原创 统计学,机器学习,数据挖掘,深度学习的关系
一,统计学 统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等,应用范围十分广泛。二、数据挖掘 顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话”,...
2021-11-05 18:35:48 203
原创 节点距离运算
节点距离计算节点距离等于两个节点到达最近的数据中心的距离总和,Namenode 选择距离上传距离最近距离的 Datanode接收数据同一机架的同一节点距离为0,同一机架不同节点间距离为1,同一集群与机架不间距离为2同一数据中心的不同集群上的节点,到数据中心的距离是3....
2021-11-05 18:33:53 162
原创 HDFS中block和切片的区别
定义(1);block;HDFS存储数据在DataNode节点,block就是DataNode里存储数据的一个一个单位。当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的定义。定义(2);split;Split是逻辑意义上的定义。split是把block切分而成的虚拟上的的定义,是MapReduce里的概念。总结1. split是MapReduce里的切片的概念,split是虚拟切片 ;而block是hdfs中切块的大小,block是物理切块...
2021-11-05 18:29:54 93
原创 HDFS读数据流程
HDFS读数据流程第一步 客户端向namenode请求下载a文件第二步 由namenode 对客户端权限查看,若符合权限,与datanode 建立联系,根据就近原则选择出每一个block 对应的主机列表。第三步 将block主机列表返回客户端第四步 客户端与每一个block 所在主机datanode间建立pipeline第五步 开始数据读取,以packet (64k)大小开始读取,三个主机可以同时读取。第六步 文件a的若干block读取完成后,将block合成完整的文件a后放入指定目录。..
2021-11-05 18:28:31 94
原创 HDFS写数据流程
HDFS写数据流程:1、客户端通过调用,分布式文件系统里的Create()新建一个文件,分布式文件系统通过RPC调用的名称节点中的文件系统命名空间创建一个新文件。//系统确认客户端操作的权限,并且查看是否有相同文件。验证未通过,则为创建失败,会显示IOException异常。验证通过,则分布式文件系统会返回文件系统数据输出流 让客户端去写数据。2、客户端调用文件系统数据输出流里面的Write()函数,向对应文件写入数据。//写入数据时,分布式文件系统会将会将文件分为一个一个的数据块,放入“数据队列”里.
2021-10-30 16:18:13 232
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人