大数据导论作业
bsybigbaobaoer
这个作者很懒,什么都没留下…
展开
-
统计学,机器学习,深度学习,数据挖掘的关系
1.统计学是一门研究怎样收集,组织,分析和解释数据中的数字化信息的科学。统计学可以分为两大类:描述统计学和推断统计学。描述统计学涉及组织,累加和描绘数据中的信息。推断统计学涉及使用抽样数据来推断总体。机器学习利用统计学来开发自学习算法。数据挖掘则是在从算法得到的结果上应用统计学,来解决问题。2.机器学习专门研究计算机是怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。3.深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神原创 2021-11-06 21:07:43 · 1111 阅读 · 0 评论 -
YARN的工作机制
1.MR程序提交到客户端所在的节点。2.YarnRunner向ResourceManager申请一个Application。3.RM将该应用程序的资源路径返回给YarnRunner。4.该程序将运行所需资源提交到HDFS上。5.程序资源提交完毕后,申请运行mrAppMaster。6.RM将用户的请求初始化成一个Task。7.其中一个NodeManager领取到Task任务。8.该NodeManager创建容器Container,并产生MRAppmaster。9.Container从HDFS上原创 2021-11-04 16:40:23 · 76 阅读 · 0 评论 -
节点距离的计算
1.在同一节点上,它们之间的距离是02.在同一机架上的不同节点,两个节点的距离为1+1=23.在同一集群的不同机架上的节点,两个节点的距离为2+2=44.在同一数据中心的不同集群上的节点,两个节点的距离是3+3=6...原创 2021-11-04 15:13:15 · 154 阅读 · 0 评论 -
HDFS读数据流程
1.客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。2.挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。3.DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。4.客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。...原创 2021-11-04 13:19:01 · 45 阅读 · 0 评论 -
HDFS写数据流程
HDFS写数据流程:1、客户端通过调用,分布式文件系统里的Create()新建一个文件,分布式文件系统通过RPC调用的名称节点中的文件系统命名空间创建一个新文件。//系统确认客户端操作的权限,并且查看是否有相同文件。验证未通过,则为创建失败,会显示IOException异常。验证通过,则分布式文件系统会返回文件系统数据输出流 让客户端去写数据。2、客户端调用文件系统数据输出流里面的Write()函数,向对应文件写入数据。//写入数据时,分布式文件系统会将会将文件分为一个一个的数据块,放入“数据队列”里.原创 2021-10-28 22:18:54 · 326 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
1.block是物理上的数据分割,而split是逻辑上的分割。2.如果没有特别指定,split size 就等于 HDFS 的 block size 。3.用户可以在M/R 程序中自定义split size。4.一个split 可以包含多个blocks,也可以把一个block应用多个split操作。5.有多少个split,就有多少个mapper。...原创 2021-11-04 15:46:54 · 66 阅读 · 0 评论