小小小小小小猿-CSDN博客

原创 YARN工作机制

ARN工作机制第一步 Client 向ResourceManage提交工作，并申请一个job ID第二步 ResourceManage返回资源提交路径和job ID，每一个job都有一个唯一的ID第三步 Client接受返回后，根据信息上传计算机所需要的资源到指定位置第四步 Client上传完毕后向ResourceManage发送执行作业请求，ResourceManage根据请求创建ApplicationManager来管理此job。第五步新创建的ApplicationManager将

2021-11-05 18:37:39 158

原创统计学，机器学习，数据挖掘，深度学习的关系

一，统计学统计学主要通过利用大量数据进行量化分析，总结出一些经验规律，做出后期推断和预测，从而为相关决策提供依据和参考，其不仅仅是统计数字，还包含了调查、收集、分析、预测等，应用范围十分广泛。二、数据挖掘顾名思义就是从海量数据中“挖掘”隐藏信息，按照教科书的说法，这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”，信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中，企业希望让存放在数据库中的数据能“说话”，...

2021-11-05 18:35:48 203

原创节点距离运算

节点距离计算节点距离等于两个节点到达最近的数据中心的距离总和，Namenode 选择距离上传距离最近距离的 Datanode接收数据同一机架的同一节点距离为0，同一机架不同节点间距离为1，同一集群与机架不间距离为2同一数据中心的不同集群上的节点，到数据中心的距离是3....

2021-11-05 18:33:53 162

原创 HDFS中block和切片的区别

定义（1）；block；HDFS存储数据在DataNode节点，block就是DataNode里存储数据的一个一个单位。当我们把文件上传到HDFS时，文件会被分块，这个是真实物理上的定义。定义（2）；split；Split是逻辑意义上的定义。split是把block切分而成的虚拟上的的定义，是MapReduce里的概念。总结1. split是MapReduce里的切片的概念，split是虚拟切片；而block是hdfs中切块的大小，block是物理切块...

2021-11-05 18:29:54 93

原创 HDFS读数据流程

HDFS读数据流程第一步客户端向namenode请求下载a文件第二步由namenode 对客户端权限查看，若符合权限，与datanode 建立联系，根据就近原则选择出每一个block 对应的主机列表。第三步将block主机列表返回客户端第四步客户端与每一个block 所在主机datanode间建立pipeline第五步开始数据读取，以packet (64k)大小开始读取，三个主机可以同时读取。第六步文件a的若干block读取完成后，将block合成完整的文件a后放入指定目录。..

2021-11-05 18:28:31 94

原创 HDFS写数据流程

HDFS写数据流程：1、客户端通过调用，分布式文件系统里的Create（）新建一个文件，分布式文件系统通过RPC调用的名称节点中的文件系统命名空间创建一个新文件。//系统确认客户端操作的权限，并且查看是否有相同文件。验证未通过，则为创建失败，会显示IOException异常。验证通过，则分布式文件系统会返回文件系统数据输出流让客户端去写数据。2、客户端调用文件系统数据输出流里面的Write（）函数，向对应文件写入数据。//写入数据时，分布式文件系统会将会将文件分为一个一个的数据块，放入“数据队列”里.

2021-10-30 16:18:13 232

m0_62597814的博客

原创 YARN工作机制

原创统计学，机器学习，数据挖掘，深度学习的关系

原创节点距离运算

原创 HDFS中block和切片的区别

原创 HDFS读数据流程

原创 HDFS写数据流程

停车场框架-改.txt

空空如也

原创 YARN工作机制

原创 统计学，机器学习，数据挖掘，深度学习的关系

原创 节点距离运算

原创 HDFS中block和切片的区别

原创 HDFS读数据流程

原创 HDFS写数据流程

停车场框架-改.txt

空空如也

原创统计学，机器学习，数据挖掘，深度学习的关系

原创节点距离运算