大数据导论作业
白凯月
这个作者很懒,什么都没留下…
展开
-
深度学习,统计学,机器学习与数据挖掘的区别与联系
这几个的单独意义就是它们的区别:1.深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。它是一个复杂的机器学习算法,它能让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据,使得人工智能相关技术取得了很大进步。2.统计学主要通过大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等。3.机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知原创 2021-11-04 20:58:59 · 461 阅读 · 0 评论 -
YARN的工作机制
YARN的全称是Yat Another Resource Negotiator,是一套全新的任务调度与资源管理框架,是Hadoop2的关键组件之一。1.提交job,申请job_id;2.返回资源提交路径和job_id;3.上传计算所需要的资源到指定位置;4.创建ApplicationManager;5.将job添加到ResourceScheduler中;6.通知ApplicationManager有空闲NodeManager可以用来执行job;7.在NodeManager中开辟容原创 2021-11-03 23:09:55 · 809 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
1.block是物理切块,是在物理内存上进行存储的,是真实存储在hdfs上的;2.split是逻辑切片, 是在虚拟上的存储,是在逻辑上的分片,减少块的数量,便于后续读取;3.一个split可能包含多个block,但一个block不一定只属于一个split。...原创 2021-10-31 17:00:41 · 90 阅读 · 0 评论 -
节点距离计算
节点距离=两个节点到达最近的共同祖先的距离总和。如图:1.在同一节点上,它们的距离为0,2*0=0;2.在同一机架上的不同节点,它们的共同祖先是机架,从这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2;3.在同一集群不同机架上的两个节点的共同祖先是集群,从两个节点到集群中间路过机架,所以单个距离是2,所以两个节点的距离为2+2=4;4.在同一数据中心的不同集群上的两个节点的共同祖先为数据中心,以此类推从单个节点到数据中心的距离为3,所以两个节点的距离为3+3=6。...原创 2021-10-31 16:36:54 · 264 阅读 · 0 评论 -
HDFS读数据流程
欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片原创 2021-10-30 23:13:50 · 1726 阅读 · 0 评论 -
HDFS写数据流程
1.HDFS客户端通过分布式文件系统向名称节点请求上传文件,名称节点检查目标文件是否已存在,父目录是否存在后名称节点创建一个新的文件记录。2.名称节点将文件分成三个数据块,也就是数据节点1(dn1),数据节点2(dn2)和数据节点3(dn3)(默认大小是64MB)。3.HDFS客户端通过文件系统数据输出流请求dn1上传数据,dn1收到请求后会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。4.dn1,dn2,dn3逐一向HDFS客户端发出确认。5.最后HDFS客户端向名称节点发原创 2021-10-26 21:01:56 · 325 阅读 · 0 评论