bsybigbaobaoer-CSDN博客

原创统计学，机器学习，深度学习，数据挖掘的关系

1.统计学是一门研究怎样收集，组织，分析和解释数据中的数字化信息的科学。统计学可以分为两大类：描述统计学和推断统计学。描述统计学涉及组织，累加和描绘数据中的信息。推断统计学涉及使用抽样数据来推断总体。机器学习利用统计学来开发自学习算法。数据挖掘则是在从算法得到的结果上应用统计学，来解决问题。2.机器学习专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。3.深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神

2021-11-06 21:07:43 1107

原创 YARN的工作机制

1.MR程序提交到客户端所在的节点。2.YarnRunner向ResourceManager申请一个Application。3.RM将该应用程序的资源路径返回给YarnRunner。4.该程序将运行所需资源提交到HDFS上。5.程序资源提交完毕后，申请运行mrAppMaster。6.RM将用户的请求初始化成一个Task。7.其中一个NodeManager领取到Task任务。8.该NodeManager创建容器Container，并产生MRAppmaster。9.Container从HDFS上

2021-11-04 16:40:23 75

原创 HDFS的block和切片（split）的区别

1.block是物理上的数据分割，而split是逻辑上的分割。2.如果没有特别指定，split size 就等于 HDFS 的 block size 。3.用户可以在M/R 程序中自定义split size。4.一个split 可以包含多个blocks，也可以把一个block应用多个split操作。5.有多少个split，就有多少个mapper。...

2021-11-04 15:46:54 66

原创节点距离的计算

1.在同一节点上，它们之间的距离是02.在同一机架上的不同节点，两个节点的距离为1+1=23.在同一集群的不同机架上的节点，两个节点的距离为2+2=44.在同一数据中心的不同集群上的节点，两个节点的距离是3+3=6...

2021-11-04 15:13:15 145

原创 HDFS读数据流程

1.客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。2.挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。3.DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。4.客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。...

2021-11-04 13:19:01 43

原创 HDFS写数据流程

HDFS写数据流程：1、客户端通过调用，分布式文件系统里的Create（）新建一个文件，分布式文件系统通过RPC调用的名称节点中的文件系统命名空间创建一个新文件。//系统确认客户端操作的权限，并且查看是否有相同文件。验证未通过，则为创建失败，会显示IOException异常。验证通过，则分布式文件系统会返回文件系统数据输出流让客户端去写数据。2、客户端调用文件系统数据输出流里面的Write（）函数，向对应文件写入数据。//写入数据时，分布式文件系统会将会将文件分为一个一个的数据块，放入“数据队列”里.

2021-10-28 22:18:54 323

bsybigbaobaoer的博客

原创统计学，机器学习，深度学习，数据挖掘的关系

原创 YARN的工作机制

原创 HDFS的block和切片（split）的区别

原创节点距离的计算

原创 HDFS读数据流程

原创 HDFS写数据流程

空空如也

空空如也

原创 统计学，机器学习，深度学习，数据挖掘的关系

原创 YARN的工作机制

原创 HDFS的block和切片（split）的区别

原创 节点距离的计算

原创 HDFS读数据流程

原创 HDFS写数据流程

空空如也

空空如也

原创统计学，机器学习，深度学习，数据挖掘的关系

原创节点距离的计算