M_19950824-CSDN博客

原创 HDFS的block和切片（split）的区别

block:HDFS存储数据在DataNode节点，block就是里面存储数据的一个一个单位。当我们把文件上传到HDFS时，文件会被分块，这个是真实物理上的定义。 split:逻辑上的定义，是把block切分而成的虚拟上的定义，是MapRuduce里的概念。通常一个split就是一个block这样做的好处是使Map可以在存储有当前数据的节点上运行本地的任务，而不需要通过网络经行跨界点的任务调度。总结：1.block是物理上的数据分割，split是逻辑上的分割如果没有特别指定，split s

2021-11-02 21:02:20 97 1

原创统计学数据挖掘深度学习机器学习关系

统计学：研究怎样收集，组织，分析和解释数据中的数字化信息的科学；机器学习：利用统计学来开发自学习算法；数据挖掘：从算法得到的结果上应用统计学来解决问题；深度学习：学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助； ...

2021-11-01 10:12:53 253

原创 YARN工作机制

1.在客户端，用户会向资源管理器请求执行运算或执行任务 2.在NameNode会有资源管理器统筹管理运算的请求 3.在其他的DataNode会有节点管理负责运行以及监督每一个任务，并且向资源管理器汇报任务状况 ...

2021-10-30 13:11:08 50

原创节点距离计算

节点距离：两个节点到达最近的共同祖先的距离总和

2021-10-29 20:48:29 84

原创 HDFS读数据流程

1、与NameNode通信查询元数据，找到文件块所在的DataNode服务器 2、挑选一台DataNode（网络拓扑上的就近原则，如果都一样，则随机挑选一台DataNode）服务器，请求建立socket流 3、DataNode开始发送数据(从磁盘里面读取数据放入流，以packet（一个packet为64kb）为单位来做校验) 　　 4、客户端以packet为单位接收，先在本地缓存，然后写入目标文件 ...

2021-10-29 20:12:39 53