自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Yarn的工作流程

Yarn的组件主要包括:ResourceManager : 资源管理Application Master : 任务调度NodeManager : 节点管理,负责执行任务Yarn的工作流程如下图所示:用户向Yarn中提交一个MR(MapReduce)任务,由ResourceManager中的Applications Manager接收Applications Manager负责资源的分配, 根据任务计算出所需要的资源,如cpu资源和内存资源,将这些资源封装成ContainerApplicatio

2021-12-10 16:15:18 490

原创 统计学,机器学习,数据挖掘,深度学习的关系

一,统计学 统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等,应用范围十分广泛。二、数据挖掘 顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话”,...

2021-11-04 23:01:56 157

原创 HDFS中block和切片的区别

定义(1);block;HDFS存储数据在DataNode节点,block就是DataNode里存储数据的一个一个单位。当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的定义。定义(2);split;Split是逻辑意义上的定义。split是把block切分而成的虚拟上的的定义,是MapReduce里的概念。总结1. split是MapReduce里的切片的概念,split是虚拟切片 ;而block是hdfs中切块的大小,block是物理切块;...

2021-10-30 23:44:53 99

原创 节点距离运算

节点距离:两个节点到达最近的共同祖先的距离总和如图所示,假如有数据中心d1机架r1节点n1该节点我们可以d1/r1/n1以此标记。利用这种标记列出四种距离描述。1.同一个机架同一个节点distance(d1/r1/n0,d1/r1/n0)=02.同一个机架上不同的节点distance(d1/r1/n2,d1/r1/n3)3.同一个集群不同的集群上的节点distance(d1/r1/n1,d1/r2/n2)=2+2=44.不同集群上的节点distance(d1/r3

2021-10-30 23:42:09 130

原创 HDFS读数据流程

1.客户端通过Distributed FlieSysteam向NameNode请求下载文件;2.NameNode通过查询元数据,找到文件块所在的DataNode地址,返回文件的元数据;3.挑选一台DataNode服务器,请求读取数据;4.DataNode开始传输数据给客户端;5.客户端以Packet为单位接收,先在本地缓存,然后写入目标文件;...

2021-10-26 21:23:57 807

原创 HDFS写程序流程

1.客户端通过Distrbuted FileStstemmuo模块向namenode请求上传;2.检验文件是否存在,如果存在就会报目录存在这个错误,如果不存在则相应可以上传文件;3.客户端请求第一个Block上传到DataNode上;4.返回dn1,dn2,dn3节点,表示这三个节点可以存储数据;5.客户端通过调用FSDataOutPutStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通讯管道建立完成;6.dn1,dn2,dn3逐级应答客户

2021-10-26 21:05:37 399

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除