![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据导论作业
iklee
这个作者很懒,什么都没留下…
展开
-
数据挖掘,机器学习,统计学习,深度学习的区别和联系
数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学界往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。但能否认为数据挖掘只不过就是机器学习的简单应用呢?答案是否定的。一个重要的区别是,传...原创 2021-11-02 17:57:59 · 629 阅读 · 0 评论 -
YARN工作流程
1.客户端向RM提交作业。 2.RM向NM开启container运行AM. 3.AM向RM申请响应数量的Container来运行任务。 4.NM开启container. 5.container向AM汇报自己的进度,状态。 6.应用执行完毕。原创 2021-10-31 20:51:03 · 122 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
1.split是mapreduce中的概念,block是HDFS中切块的大小。 2.split的大小默认时和block块大小一致,但可以通过配置文件自己设置。 3.split和block是一对多的关系。 4.一个split包含至少一个block.原创 2021-10-31 16:22:21 · 87 阅读 · 0 评论 -
节点距离计算
节点距离:两个节点到达最近的共同祖先的距离总和 1.同一机架的同一节点距离为0. 2.同一机架的不同节点,共同祖先为这个机架距离为2. 3.同一集群的不同机架的节点,共同祖先是集群,两节点距离为4. ...原创 2021-10-31 16:10:39 · 114 阅读 · 0 评论 -
HDFS读数据流程
1.客户端通过向NN请求下载文件,NN通过查询元数据,找到文件快所在的DN地址。 2.挑选一台DN(就近原则,随机)服务器,请求读取数据。 3.DN开始传输数据给客户端(从磁盘里面读取数据输入流)。 4.客户端接收,先在本地缓存,然后写入目标文件。 ...原创 2021-10-31 15:20:33 · 154 阅读 · 0 评论 -
HDFS写数据流程
文字说明: 1.客户端通过调用,分布式文件系统对象中的Create()创建一个文件,分布式文件系统通过PRC调用的NN中的文件系统命名空间创建一个新文件。 2.NN通过验证,确保请求客户端拥有创建文件的权限,新的文件不存在文件系统中,若通过验证,NN会创建一个新文件的记录。 3.客户端调用FSDataOutputStream的White函数,相对应的文件写入数据。 4.DFSDataOutputStream将文件分割成包,放入数据队列中。 5.DFSDataOutputStream保存内部队...原创 2021-10-31 14:32:35 · 107 阅读 · 0 评论