- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 统计学,机器学习,数据挖掘和深度学习之间的区别
1.统计学统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关決策提供依据和参考,其不仅仅是统计数宇,还包含了调查、收集、分析、预测等,应用范围十分广泛。2.数据挖掘数据挖掘也就是data mining,是一个很宽泛的概念。字面意思就是从成吨的数据里面掘有用的信息数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。3.机器学习机器学习是一门多领域交叉学科,涉及概
2021-11-07 22:54:48 739
原创 YARN的工作流程
1 用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2 ResourceManager为该应用程序分配第一个Container(这里可以理解为一种资源比如内存),并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。3 ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManage查看
2021-11-01 01:12:10 303
原创 HDFS的块(block)和切片(split)的区别
1.块的定义:HDFS存储数据在DataNode节点,block就是DataNode里存储数据的一个一个单位。当我们把文件上传到HDFS时,文件会被分块,也就是系统默认的存储最小单位(64mb或者128mb)。2.切片的定义:切片是把block切分而成的虚拟上的的定义,是MapReduce里的概念。 是MapReduce中的map task 开始之前将文件按指定大小切割后的若干个分片其大小与块一样为64mb或者128mb。...
2021-10-31 01:10:32 426
原创 节点距离计算
##HDFS节点距离计算跟二叉树节点距离计算有相似之处。所谓的节点距离计算就是俩个节点到达最近的共同祖先的距离总和,也就是俩个节点间最短的路径。1.从节点机架s1中的节点n0到节点n0,也就是同一节点的距离为0。表示为Distance(/d1/s1/n0,/d1/s1/n0)=0(同一个机架上的同一节点距离)2.如果从节点机架s1中的节点n0到节点n1,表示为Distance(/d1/s1/n0,/d1/s1/n1)=2(同一个机架上的不同节点距离)3.如果从节点机架s1中的节点n0到机架s
2021-10-30 00:31:42 338
原创 HDFS读数据流程
#对文件操作采用(一次些多次读取模式)1.客户端首先通过分布式文件系统对象中的Open()函数来读取它所需要的数据(了解该文件有哪些数据块)。2.分布式文件系统会通过RPC协议调用名称节点来确定文件块所在的位置(数据块该放在哪里或者取哪个节点上的什么数据块)。3.然后客户端利用文件系统数据输出流的Read()方法开始读取数据。4.文件系统数据输出流连接保存此文件第一个数据块的最近的数据节点,并以数据流的形式读取数据,客户端多次用Read()直到到达数据块结束位置。5.当第一个数据块读取完
2021-10-29 01:05:29 243
原创 HDFS写数据流程
#对文件操作采用(一次些多次读取模式)1.客户端通过调用分布式文件系统行对象的create()创建一个文件然后分布式文件系统会通过RPC调用的名称节点中的文件系统命名空间接着创建一个新文件。2.名称节点通过多种验证,确认客户端权限和没有相同的文件后,名称节点创建一个新的文件记录。失败的话会显示IOException异常。如果成功的话返回文件系统数据输出流给客户端用来写数据。3.客户端调用文件系统数据输出流的write()函数,向对应的文件写入数据。4.当客户端写入数据时分布式文件系统会将文件
2021-10-26 21:14:31 720
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人