自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 HDFS的block和切片(split)的区别

block:HDFS存储数据在DataNode节点,block就是里面存储数据的一个一个单位。当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的定义。 split:逻辑上的定义,是把block切分而成的虚拟上的定义,是MapRuduce里的概念。通常一个split就是一个block这样做的好处是使Map可以在存储有当前数据的节点上运行本地的任务,而不需要通过网络经行跨界点的任务调度。 总结:1.block是物理上的数据分割,split是逻辑上的分割 如果没有特别指定,split s

2021-11-02 21:02:20 97 1

原创 统计学 数据挖掘 深度学习 机器学习关系

统计学:研究怎样收集,组织,分析和解释数据中的数字化信息的科学; 机器学习:利用统计学来开发自学习算法; 数据挖掘:从算法得到的结果上应用统计学来解决问题; 深度学习:学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助; ...

2021-11-01 10:12:53 253

原创 YARN工作机制

1.在客户端,用户会向资源管理器请求执行运算或执行任务 2.在NameNode会有资源管理器统筹管理运算的请求 3.在其他的DataNode会有节点管理负责运行以及监督每一个任务,并且向资源管理器汇报任务状况 ...

2021-10-30 13:11:08 50

原创 节点距离计算

节点距离:两个节点到达最近的共同祖先的距离总和

2021-10-29 20:48:29 84

原创 HDFS读数据流程

1、与NameNode通信查询元数据,找到文件块所在的DataNode服务器 ​​​​​​​​​​​​​​2、挑选一台DataNode(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)服务器,请求建立socket流 3、DataNode开始发送数据(从磁盘里面读取数据放入流,以packet(一个packet为64kb)为单位来做校验)    ​​​​​​​​​​​​​​4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件 ...

2021-10-29 20:12:39 53

原创 HDFS写数据流程

2021-10-26 20:27:41 61

交通灯(新).ms12

交通灯(新).ms12

2022-11-27

实验10.ms12

实验10.ms12

2022-11-13

student_database.sql

student_database.sql

2022-09-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除