- 博客(9)
- 收藏
- 关注
原创 类和对象的使用
return "姓名"+":"+this.name+","+"性别"+":"+this.sex+","+"学号"+":"+this.studentID+","+"年龄"+":"+this.age+","+"专业"+":"+this.major;
2023-03-14 11:40:44
36
原创 数据挖掘,机器学习,统计学习,深度学习的区别和联系
数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学界往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。但能否认为数据挖掘只不过就是机器学习的简单应用呢?答案是否定的。一个重要的区别是,传...
2021-11-02 17:57:59
629
原创 YARN工作流程
1.客户端向RM提交作业。 2.RM向NM开启container运行AM. 3.AM向RM申请响应数量的Container来运行任务。 4.NM开启container. 5.container向AM汇报自己的进度,状态。 6.应用执行完毕。
2021-10-31 20:51:03
122
原创 HDFS的block和切片(split)的区别
1.split是mapreduce中的概念,block是HDFS中切块的大小。 2.split的大小默认时和block块大小一致,但可以通过配置文件自己设置。 3.split和block是一对多的关系。 4.一个split包含至少一个block.
2021-10-31 16:22:21
87
原创 节点距离计算
节点距离:两个节点到达最近的共同祖先的距离总和 1.同一机架的同一节点距离为0. 2.同一机架的不同节点,共同祖先为这个机架距离为2. 3.同一集群的不同机架的节点,共同祖先是集群,两节点距离为4. ...
2021-10-31 16:10:39
114
原创 HDFS读数据流程
1.客户端通过向NN请求下载文件,NN通过查询元数据,找到文件快所在的DN地址。 2.挑选一台DN(就近原则,随机)服务器,请求读取数据。 3.DN开始传输数据给客户端(从磁盘里面读取数据输入流)。 4.客户端接收,先在本地缓存,然后写入目标文件。 ...
2021-10-31 15:20:33
154
原创 HDFS写数据流程
文字说明: 1.客户端通过调用,分布式文件系统对象中的Create()创建一个文件,分布式文件系统通过PRC调用的NN中的文件系统命名空间创建一个新文件。 2.NN通过验证,确保请求客户端拥有创建文件的权限,新的文件不存在文件系统中,若通过验证,NN会创建一个新文件的记录。 3.客户端调用FSDataOutputStream的White函数,相对应的文件写入数据。 4.DFSDataOutputStream将文件分割成包,放入数据队列中。 5.DFSDataOutputStream保存内部队...
2021-10-31 14:32:35
107
原创 HDFS写数据流程
1.客户端通过调用,分布式文件系统对象中的Create()创建一个文件,分布式文件系统通过RPC调用的NN中的文件系统命名空间创建一个新文件。 2.NN通过验证,确保请求客户端拥有创建文件的权限,新的文件不存在文件系统中,若通过验证,NN会创建一个新文件的记录。 3.客户端调用FSDataOutputStream的White函数,向对应的文件写入数据。 4.DFSDataOutputStream将文件分割成包,放入数据队列中。 5.DFSDataOutputStream保存内部队列,等待“管道”中的数据节点
2021-10-31 14:06:32
118
原创 HDFS写数据流流程
1.客户端通过调用,分布式文件系统对象中的Create()创建一个文件,分布式文件系统通过RPC调用的NN中的文件系统命名空间创建一个新文件。 2.NN通过验证,确保请求客户端拥有创建文件的权限,新的文件不存在文件系统中,若通过验证,NN会创建一个新文件的记录。 3.客户端调用FSDataOutputStream的White函数,向对应的文件写入数据。 4.DFSDataOutputStream将文件分割成包,放入数据队列中。 5.DFSDataOutputStream保存内部队列,等待“管道”中的
2021-10-26 22:05:57
79
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人