生きている572-CSDN博客

原创深度学习，统计学，机器学习，数据挖掘之间关系

深度学习是机器学习的技术之一，深度挖掘是机器学习的应用，数据挖掘由统计学来做支撑

2021-11-05 22:32:06 864

1：split（切片）是在mapreduce时运用的；block是在用hdfs时运用的。2：split即为在block前，将文件先进行每块的标记，不对文件进行任何动作，是为了更好的让block更快的进行的预制操作，为了是mapreduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输3：block（切块），将文件从客户端上传到hdfs时，hdfs进行的操作，将文件分成一个一个的块，是物理意义上的划分4：split是逻辑意义上的划分...

2021-10-30 23:06:19 436 1

原创节点距离计算

1：如在同一节点，节点间距离为02：如在同一机架，不同节点，它们的老大是这个机架，它们到机架的距离都为1，它们间距离为1+1=23：如在同一集群，不同机架，它们的老大是这个集群，它们要到达集群的话，要先经过机架（距离为1）在到达集群（距离为2），它们间距离为2+2=44：如在同一数据中心，不同集群，他们的老大是这个数据中心，它们要到数据中心的话，要先经过机架（距离为1），再到集群（距离为2），最后才到数据中心，它们间距离为3+3=6...

2021-10-30 22:46:51 166

原创 HDFS写数据流

大部分hdfs程序对文件操作采用" 一次写多次读取”的模式写数据过程：简述：客户端先通知nn节点：我要写文件了，确认客户端权限和没有相同的文件以后，nn节点创建一个新的文件记录；然后把文件分成一个一个的数据块（默认大小64mb）通过文件流的方式向dn节点中写数据，写数据的时候，注意是会写冗余数据，冗余数据块默认三个；最后，只有冗余数据块全部写完，dn节点再向客户端发出确认，然后客户端向nn节点发出结束消息，并将文件的块信息存储在nn节点里面。1：客户端调用分布式文件系统（Distribut...

2021-10-30 17:17:38 154

原创 HDFS读数据流

1：hdfs读数据过程：简述：先从nn节点得这些信息：1.这个文件有哪些数据块；2.这些数据块放在哪里或者是取哪个节点上的什么数据块。然后客户端直接从dn节点里面用数据流的方式来读取数据。最后关闭这个数据。1：客户端调用分布式文件系统对象中的open（）函数来读取所需数据。2：distributed file system会通过rpc协议调用名称节点（name node）来确定所客户端请求的文件”“块”的位置。要注意的是，nn节只会返回调用文件中刚开始的那“几个”块，不会吧所有的块...

2021-10-30 15:29:17 152

原创 yarn的工作机制

yarn工作机制概述：1：用户向客户端提交一个任务（job）至资源管理器（resource manager），可以指定提交至哪个队列，要哪些资源，可对每个计算引擎进行设置。如未设置，一般会使用默认配置。2：资源管理器收到提交任务的请求后，开始会判断资源和队列满不满足要求来单独使用一个节点管理（node manager），通知节点管理启动一个储存容器（container）（container就是一个向节点管理申请一定资源（cpu，内存等）的程序），被称为应用程序包（app mstr），后面的流程...

2021-10-26 21:52:07 588

qq_63518252的博客

原创深度学习，统计学，机器学习，数据挖掘之间关系

原创 HDFS的block和切片（split）的区别

原创节点距离计算

原创 HDFS写数据流

原创 HDFS读数据流

原创 yarn的工作机制

空空如也

空空如也

原创 深度学习，统计学，机器学习，数据挖掘之间关系

原创 HDFS的block和切片（split）的区别

原创 节点距离计算

原创 HDFS写数据流

原创 HDFS读数据流

原创 yarn的工作机制

空空如也

空空如也

原创深度学习，统计学，机器学习，数据挖掘之间关系

原创节点距离计算