冰绒琉璃-CSDN博客

原创数据挖掘，机器学习，深度学习，统计学

1.数据挖掘：从庞大的大数据中找到有价值的数据。通过分析每个数据，找到其规律。主要步骤为数据准备，规律寻找，规律展示。（1.数据准备：整合需要用到的数据集。2.规律寻找：寻找数据集的规律。3.规律展示：用可视化的方法把规则展示出来。）2.机器学习：主要应用对象为人工智能，它的最终目的是让机器具备人类一样的智慧，现阶段还只能做的让机器拥有智能（例如人工智能，它还不具备智...

2021-11-05 00:23:07 1432

原创 YARN的工作机制

1.客户端向ResourceManager提交一个任务。2.ResourceManager让一个NodeManager启动container运行ApplicationMaster。3.AM向RM申请足够的container。4.AM通知NM开启container。5.各个container向AM汇报进度。6.全部完成后AM向RM注销任务。...

2021-11-03 00:54:18 82

原创 HDFS的block和切片（split）的区别

1.split是MapReduce里的概念,而block是hdfs中切块的大小。2.block是数据节点储存数据的一个个单位，split是把block切分而成的虚拟定义。3.block是真实的，物理上的切片；spilt是虚拟的。

2021-11-03 00:20:24 89

原创节点距离计算

1.同一节点：距离为0。2.同一机架的不同节点：距离为2。3.同一集群的不同机架：距离为4。4.同一祖先的不同集群：距离为6。

2021-11-03 00:10:43 60

原创 HDFS读数据流

HDFS读数据流：1.客户端通过分布式文件系统的Open（）函数读取数据的位置。2.客户端文件系统数据输出流的Read（）读取数据。

2021-11-02 23:22:39 49

HDFS写数据流：1.客户端通过调用，分布式文件系统对象中的Create()创建一个文件，分布式文件系统通过PRC调用的NN中的文件系统命名空间创建一个新文件。2.NN会验证客户端的权限和文件存不存在于文件系统中。3.验证通过后会创建一个新的文件记录，并返回一个文件系统数据输出流（用来写数据）。4.客户端通过文件系统数据输出流的Write（）函数，写入数据。5.DFSDateOutputStream会将文件分成一个个数据块。6.数据块以次存储进几个（默认3个）数据节点。7....

2021-11-02 22:15:58 56

原创 HDFS写读数据流（旧版）

1.HDFS写数据流：1.1 客户端向namenode发送请求。1.2 namenode检查权限和文件是否重复。验证通过namenode就会创建一个新的1.3

2021-10-26 21:44:11 811

qq_63518305的博客