- 博客(6)
- 收藏
- 关注
原创 HDFS的block和切片(split)的区别
block:HDFS存储数据在DataNode节点,block就是里面存储数据的一个一个单位。当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的定义。 split:逻辑上的定义,是把block切分而成的虚拟上的定义,是MapRuduce里的概念。通常一个split就是一个block这样做的好处是使Map可以在存储有当前数据的节点上运行本地的任务,而不需要通过网络经行跨界点的任务调度。 总结:1.block是物理上的数据分割,split是逻辑上的分割 如果没有特别指定,split s
2021-11-02 21:02:20 108 1
原创 统计学 数据挖掘 深度学习 机器学习关系
统计学:研究怎样收集,组织,分析和解释数据中的数字化信息的科学; 机器学习:利用统计学来开发自学习算法; 数据挖掘:从算法得到的结果上应用统计学来解决问题; 深度学习:学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助; ...
2021-11-01 10:12:53 262
原创 YARN工作机制
1.在客户端,用户会向资源管理器请求执行运算或执行任务 2.在NameNode会有资源管理器统筹管理运算的请求 3.在其他的DataNode会有节点管理负责运行以及监督每一个任务,并且向资源管理器汇报任务状况 ...
2021-10-30 13:11:08 59
原创 HDFS读数据流程
1、与NameNode通信查询元数据,找到文件块所在的DataNode服务器 2、挑选一台DataNode(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)服务器,请求建立socket流 3、DataNode开始发送数据(从磁盘里面读取数据放入流,以packet(一个packet为64kb)为单位来做校验) 4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件 ...
2021-10-29 20:12:39 62
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人