大数据导论作业
大数据导论作业
m0_61730494
这个作者很懒,什么都没留下…
展开
-
blog,统计学,机器学习的关系
1.统计学,数据挖掘和机器学习都涉及到收集和分析数据 2.数据分析,机器学习和数据挖掘是不同context下,统计推断的不同名字。 3.统计推断的近亲是数据挖掘和机器学习。 4.统计学和机器学习经常使用不同的语言来描述相同的事情 ...原创 2021-10-31 22:57:11 · 390 阅读 · 0 评论 -
Yarn工作机制
1Client向ResourceManager中ApplicationsManager(AsM)提交一个应用程序 2AsM向Scheduler请求一个供ApplicationMaster运行的container,并与对应的NodeManager通信,要求它在这个Container中启动应用程序的ApplicationMaster 3ApplicationMaster启动后向AsM注册,这样Client即可以从AsM获取到AM相关的信息,并直接与AM进行通信,然后ApplicationMaster为各...原创 2021-10-31 22:45:37 · 93 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
1、一个文件从本地被上传到HDFS时,会进行分块,块大小默认是64M,同时会产生副本数保存在其他datanode上,默认副本数是3个,课通过配置文件修改 2、要进行分片时,先把块从分布式文件系统中取出,调用getSplits(),通过分片算法对块进行分片,片的单位大小就是块的大小,hadoop默认128M 3、block是在物理内存上进行存储的,是真实存储在hdfs上的 4、split 是在虚拟上的存储,是在逻辑上的分片,减少块的数量,便于后续读取 5、一个split只能属于一个文件,但是一个文件会被...原创 2021-10-31 22:41:15 · 662 阅读 · 0 评论 -
节点距离计算
在同一节点上,它们之间的距离当然是0,2*0=0 在同一机架上的不同节点,它们的共同祖先就是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2 在同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到这个机架(距离1),然后到达集群(距离2),所以两个节点的距离为2+2=4 在同一数据中心的不同集群上的节点,它们的共同祖先是数据中心,以此类推,一个节点到数据中心的距离是3,两个节点的距离就是3+3=6 ...原创 2021-10-31 22:36:45 · 80 阅读 · 0 评论 -
HDFS读数据流程
只需用两个dn 1.Client请求下载文件 2.Nn需要看一下要下载的文章在哪里,给Client返回这个数据 3.Client要一个块一个块的下载所以给dn1发送读数据blk1的请求 4.dn1收到后给Client传输数据。 5.Client再给dn2发送读数据blk2的请求 6.dn2再给Client传输数据 ...原创 2021-10-26 21:20:39 · 514 阅读 · 0 评论 -
HDFS写数据流程
1.Client去给NameNode发送写数据的请求。 2.之后Nn去检查目录,就是说它要检查一些它要发送的这些目录存不存在,没有的话就会返回,再去检查HDFS有没有这个文件,如果又一样的就会说重名了还要不要上传或者覆盖。 3.没有问题了之后就给Client发送可以上传的信息了。 4.然后Client就开始给Nn发送blk1了,blk这个文件是分块上传的。 5.Nn收到这个消息后要开始查询DataNode的信息,它要看一下哪些dn是活跃的,空间是够的。 6.查询完了给Client说你可...原创 2021-10-26 21:36:35 · 94 阅读 · 0 评论