自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 blog,统计学,机器学习的关系

1.统计学,数据挖掘和机器学习都涉及到收集和分析数据2.数据分析,机器学习和数据挖掘是不同context下,统计推断的不同名字。3.统计推断的近亲是数据挖掘和机器学习。4.统计学和机器学习经常使用不同的语言来描述相同的事情...

2021-10-31 22:57:11 375

原创 Yarn工作机制

1Client向ResourceManager中ApplicationsManager(AsM)提交一个应用程序2AsM向Scheduler请求一个供ApplicationMaster运行的container,并与对应的NodeManager通信,要求它在这个Container中启动应用程序的ApplicationMaster3ApplicationMaster启动后向AsM注册,这样Client即可以从AsM获取到AM相关的信息,并直接与AM进行通信,然后ApplicationMaster为各...

2021-10-31 22:45:37 83

原创 HDFS的block和切片(split)的区别

1、一个文件从本地被上传到HDFS时,会进行分块,块大小默认是64M,同时会产生副本数保存在其他datanode上,默认副本数是3个,课通过配置文件修改2、要进行分片时,先把块从分布式文件系统中取出,调用getSplits(),通过分片算法对块进行分片,片的单位大小就是块的大小,hadoop默认128M3、block是在物理内存上进行存储的,是真实存储在hdfs上的4、split 是在虚拟上的存储,是在逻辑上的分片,减少块的数量,便于后续读取5、一个split只能属于一个文件,但是一个文件会被...

2021-10-31 22:41:15 654

原创 节点距离计算

在同一节点上,它们之间的距离当然是0,2*0=0在同一机架上的不同节点,它们的共同祖先就是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2在同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到这个机架(距离1),然后到达集群(距离2),所以两个节点的距离为2+2=4在同一数据中心的不同集群上的节点,它们的共同祖先是数据中心,以此类推,一个节点到数据中心的距离是3,两个节点的距离就是3+3=6...

2021-10-31 22:36:45 70

原创 HDFS写数据流程

1.Client去给NameNode发送写数据的请求。2.之后Nn去检查目录,就是说它要检查一些它要发送的这些目录存不存在,没有的话就会返回,再去检查HDFS有没有这个文件,如果又一样的就会说重名了还要不要上传或者覆盖。3.没有问题了之后就给Client发送可以上传的信息了。4.然后Client就开始给Nn发送blk1了,blk这个文件是分块上传的。5.Nn收到这个消息后要开始查询DataNode的信息,它要看一下哪些dn是活跃的,空间是够的。6.查询完了给Client说你可...

2021-10-26 21:36:35 85

原创 HDFS读数据流程

只需用两个dn1.Client请求下载文件2.Nn需要看一下要下载的文章在哪里,给Client返回这个数据3.Client要一个块一个块的下载所以给dn1发送读数据blk1的请求4.dn1收到后给Client传输数据。5.Client再给dn2发送读数据blk2的请求6.dn2再给Client传输数据...

2021-10-26 21:20:39 503

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除