易徕文-CSDN博客

原创统计学，机器学习，数据挖掘和深度学习之间的区别

统计学，机器学习，数据挖掘和深度学习之间的区别1.统计学统计学主要通过利用大量数据进行量化分析，总结出一些经验规律，做出后期推断和预测，从而为相关决策提供依据和参考，其不仅仅是统计数字，还包含了调查、收集、分析、预测等，应用范围十分广泛。2.数据挖掘也就是data mining，是一个很宽泛的概念。字面意思就是从成吨的数据里面挖掘有用的信息。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。3

2021-11-07 22:53:50 486

原创 YARN的工作机制

1. 用户使用客户端向 RM 提交一个任务，同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置。2. RM 在收到任务提交的请求后，先根据资源和队列是否满足要求选择一个 NM，通知它启动一个特殊的 container，称为 ApplicationMaster（AM），后续流程由它发起。3. AM 向 RM 注册后根据自己任务的需要，向 RM 申请 container，包括数量、所需资源量、所在位置等因素。4. 如果队列有足够资源，RM 会将 container 分配给有

2021-10-27 22:46:40 142

原创 HDFS的block和切片（split）的区别。

1.split是MapReduce里的概念,是切片的概念,split是逻辑切片;而block是hdfs中切块的大小,block是物理切块。2.split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。3.Block；当我们把文件上传到HDFS时，文件会被分块，这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。4.Split：spl

2021-10-27 22:39:14 350

原创节点距离计算

1.同一机架的同一节点，不用说都知道是02.同一机架的不同节点，n1,n2的共同祖先是r1，n1到r1的距离是1，n2到r1的距离是1，所以节点距离就是23.同一数据中心不同机架上的节点，r2的n0与r3的n2共同祖先是集群d1,n0到d1的距离是2,n2到d1的距离也是2，所以节点距离就是44.不同数据中心的节点，共同祖先是数据中心的父亲，所以节点距离是3+3=6...

2021-10-27 22:26:33 166

原创 HDFS写数据流程

1.确认文件是否存在，父目录是否已经存在。2.确认客户端权限和没有相同的文件后，名称节点创建一个新的文件记录。3.将文件分成数据块，通过数据流的方式往数据节点中写数据。客户端调用FSDataOutputStream的Write（）函数，向对应的文件写入数据。4.数据节点将文件包以流的方式传给队列中的第一个数据节点，依次重复操作，直到最后一个。5.最后，都写完后数据节点再向客户端发出确认，然后客户端向名称节点发出结束消息，并将文件的块信息存储在名称节点中。...

2021-10-26 22:45:40 243

原创 1.HDFS读数据流程

1.客户端通过调用分布式文件系统对象中的Open（）函数来读取它所需要的数据。2.Distributed File System 会通过RPC协议调用名称节点来确定请求文件块所在的位置。3.对输入流调用Read（）方法。4.客户端利用FSDataInputStream的Read()，随即链接距离最近的，通过对数据流反复调用Read（）方法。5.FSDataInputSream连接保存此文件第一个数据块的最近的数据节点，并以数据流的形式读取数据，客户端多次调用Read(),直接到达数据块结束位

2021-10-26 22:09:01 868

m0_61611909的博客

原创统计学，机器学习，数据挖掘和深度学习之间的区别

原创 YARN的工作机制

原创 HDFS的block和切片（split）的区别。

原创节点距离计算

原创 HDFS写数据流程

原创 1.HDFS读数据流程

空空如也

空空如也

原创 统计学，机器学习，数据挖掘和深度学习之间的区别

原创 YARN的工作机制

原创 HDFS的block和切片（split）的区别。

原创 节点距离计算

原创 HDFS写数据流程

原创 1.HDFS读数据流程

空空如也

空空如也

原创统计学，机器学习，数据挖掘和深度学习之间的区别

原创节点距离计算