自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学,机器学习,数据挖掘与深度学习

统计学:统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学 数据挖掘:又叫做数据库中的知识发现,简称为KDD。即数据挖掘技术就是在模糊的、有噪声的、不完全的、大量的、随机的数据中,提取潜在的、人们事先不知道的、隐含在其中的有价值的知识与信息的过程。机器学习:基于对海量信息处理的需求产生的一门涉及多个学科领域交叉的学科,机器学习是对能通过经验自动改进的计算机算法研究。其主要目的是研究计算机如何通过学习人类的思维和行为,来自动获取新知识,自动适应环境的变化

2021-10-29 21:24:16 415

原创 节点距离计算

1.同一节点上的不同进程 2.同一机架上的不同节点:n1,n2的共同祖先是r1 ,n1到r1距离是1,n2到r1的距离是1,所以节点距离是2 3.同一数据中心不同机架上的节点:节点距离是4 4.不同数据中心:节点距离是6 节点距离是为偶数,一根线为2

2021-10-29 12:18:32 84

原创 HDFS写数据

2021-10-28 20:38:35 56

原创 HDFS的block和切片(split)的区别

数据块Block:是HDFS物理数据块,是HDFS文件系统默认数据块是文件存储最小单位(按照64MB或者128MB)一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即Block。 切片split:是逻辑概念,只是程序上输入数据的时候对数据进行标记,不会实际切分磁盘数据。 Mapper的数量由切片数量决定,对文件切分成多少份后,Hadoop 就会切分成多少个MapTask任务执行该文件。 ...

2021-10-28 20:36:22 871

原创 YARN的工作机制

2021-10-26 22:41:26 75

原创 HDFS读数据流程

2021-10-26 22:31:27 39

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除