iklee-CSDN博客

原创类和对象的使用

return "姓名"+"："+this.name+"，"+"性别"+"："+this.sex+"，"+"学号"+"："+this.studentID+","+"年龄"+"："+this.age+","+"专业"+"："+this.major;

2023-03-14 11:40:44 36

数据库提供数据管理技术，机器学习和统计学提供数据分析技术。由于统计学界往往醉心于理论的优美而忽视实际的效用，因此，统计学界提供的很多技术通常都要在机器学习界进一步研究，变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说，统计学主要是通过机器学习来对数据挖掘发挥影响，而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看，绝大多数数据挖掘技术都来自机器学习领域。但能否认为数据挖掘只不过就是机器学习的简单应用呢？答案是否定的。一个重要的区别是，传...

2021-11-02 17:57:59 629

原创 YARN工作流程

1.客户端向RM提交作业。 2.RM向NM开启container运行AM. 3.AM向RM申请响应数量的Container来运行任务。 4.NM开启container. 5.container向AM汇报自己的进度，状态。 6.应用执行完毕。

2021-10-31 20:51:03 122

原创 HDFS的block和切片（split)的区别

1.split是mapreduce中的概念，block是HDFS中切块的大小。 2.split的大小默认时和block块大小一致，但可以通过配置文件自己设置。 3.split和block是一对多的关系。 4.一个split包含至少一个block.

2021-10-31 16:22:21 87

原创节点距离计算

节点距离：两个节点到达最近的共同祖先的距离总和 1.同一机架的同一节点距离为0. 2.同一机架的不同节点，共同祖先为这个机架距离为2. 3.同一集群的不同机架的节点，共同祖先是集群，两节点距离为4. ...

2021-10-31 16:10:39 114

原创 HDFS读数据流程

1.客户端通过向NN请求下载文件，NN通过查询元数据，找到文件快所在的DN地址。 2.挑选一台DN（就近原则，随机）服务器，请求读取数据。 3.DN开始传输数据给客户端（从磁盘里面读取数据输入流）。 4.客户端接收，先在本地缓存，然后写入目标文件。 ...

2021-10-31 15:20:33 154

原创 HDFS写数据流程

文字说明： 1.客户端通过调用，分布式文件系统对象中的Create()创建一个文件，分布式文件系统通过PRC调用的NN中的文件系统命名空间创建一个新文件。 2.NN通过验证，确保请求客户端拥有创建文件的权限，新的文件不存在文件系统中，若通过验证，NN会创建一个新文件的记录。 3.客户端调用FSDataOutputStream的White函数，相对应的文件写入数据。 4.DFSDataOutputStream将文件分割成包，放入数据队列中。 5.DFSDataOutputStream保存内部队...

2021-10-31 14:32:35 107

原创 HDFS写数据流程

1.客户端通过调用，分布式文件系统对象中的Create()创建一个文件，分布式文件系统通过RPC调用的NN中的文件系统命名空间创建一个新文件。 2.NN通过验证，确保请求客户端拥有创建文件的权限，新的文件不存在文件系统中，若通过验证，NN会创建一个新文件的记录。 3.客户端调用FSDataOutputStream的White函数，向对应的文件写入数据。 4.DFSDataOutputStream将文件分割成包，放入数据队列中。 5.DFSDataOutputStream保存内部队列，等待“管道”中的数据节点

2021-10-31 14:06:32 118

原创 HDFS写数据流流程

1.客户端通过调用，分布式文件系统对象中的Create()创建一个文件，分布式文件系统通过RPC调用的NN中的文件系统命名空间创建一个新文件。 2.NN通过验证，确保请求客户端拥有创建文件的权限，新的文件不存在文件系统中，若通过验证，NN会创建一个新文件的记录。 3.客户端调用FSDataOutputStream的White函数，向对应的文件写入数据。 4.DFSDataOutputStream将文件分割成包，放入数据队列中。 5.DFSDataOutputStream保存内部队列，等待“管道”中的

2021-10-26 22:05:57 79

iklee的博客

原创类和对象的使用

原创数据挖掘，机器学习，统计学习，深度学习的区别和联系

原创 YARN工作流程

原创 HDFS的block和切片（split)的区别

原创节点距离计算

原创 HDFS读数据流程

原创 HDFS写数据流程

原创 HDFS写数据流程

原创 HDFS写数据流流程

空空如也

空空如也