![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据导论作业
大数据导论作业
m0_63518503
这个作者很懒,什么都没留下…
展开
-
统计学,机器学习,数据挖掘与深度学习
统计学:统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学 数据挖掘:又叫做数据库中的知识发现,简称为KDD。即数据挖掘技术就是在模糊的、有噪声的、不完全的、大量的、随机的数据中,提取潜在的、人们事先不知道的、隐含在其中的有价值的知识与信息的过程。机器学习:基于对海量信息处理的需求产生的一门涉及多个学科领域交叉的学科,机器学习是对能通过经验自动改进的计算机算法研究。其主要目的是研究计算机如何通过学习人类的思维和行为,来自动获取新知识,自动适应环境的变化原创 2021-10-29 21:24:16 · 415 阅读 · 0 评论 -
HDFS读数据流程
原创 2021-10-26 22:31:27 · 39 阅读 · 0 评论 -
YARN的工作机制
原创 2021-10-26 22:41:26 · 75 阅读 · 0 评论 -
节点距离计算
1.同一节点上的不同进程 2.同一机架上的不同节点:n1,n2的共同祖先是r1 ,n1到r1距离是1,n2到r1的距离是1,所以节点距离是2 3.同一数据中心不同机架上的节点:节点距离是4 4.不同数据中心:节点距离是6 节点距离是为偶数,一根线为2原创 2021-10-29 12:18:32 · 84 阅读 · 0 评论 -
HDFS写数据
原创 2021-10-28 20:38:35 · 56 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
数据块Block:是HDFS物理数据块,是HDFS文件系统默认数据块是文件存储最小单位(按照64MB或者128MB)一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即Block。 切片split:是逻辑概念,只是程序上输入数据的时候对数据进行标记,不会实际切分磁盘数据。 Mapper的数量由切片数量决定,对文件切分成多少份后,Hadoop 就会切分成多少个MapTask任务执行该文件。 ...原创 2021-10-28 20:36:22 · 871 阅读 · 0 评论