- 博客(6)
- 收藏
- 关注
原创 统计学、数据挖掘、机器学习和深度学习的区别
统计学:通过搜索、整理、分析数据等手段,,以达到推断所测对象的本质甚至预测对象未来的一门综合性科学,用到了大量的数学及其他学科的专业知识。机器学习:设计和分析一些让计算机可以自动“学习”的算法,是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。数据挖掘:从数据库中揭示出隐含的、先前未知的并有潜在价值的信息的过程。深度学习:是机器学习中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。区别:统计学是机器学习和数据挖掘的基础,主要通过人
2021-11-03 21:20:22 583
原创 YARN的工作机制
YARN主要由两个核心步骤构成,分别是ResourceManager和NodeManager;当用YARN进行大数据计算时,可以划分为五个阶段:一:作业提交阶段:Client申请计算资源的应用并向整个集群提交job同时申请一个job-id,当ResourceManager收到Client的请求后,给Client返回一个资源提交路径和job-id,当Client收到ResourceManager的返回后,根据这些返回数据的值发送一个jar包,上传计算所需要的资源到指定的位置,之后向ResourceMana
2021-10-30 23:04:39 1284
原创 HDFS的block与切片(split)的区别
一:block是HDFS在物理上把数据分成一块块的,是存在于磁盘中的,而切片只是在逻辑上对输入的数据进行分片,并不会在磁盘上将其切分成片进行存储;二:HDFS的block很大,在保存文件时,小于block的文件不会占用一个block的空间,而切片中即使一个文件小于一个切片也会占用一个切片的空间;三:一个切片只能属于一个文件,而一个block中可以有很多个文件;四:HDFS的block大大简化了储存管理以及子系统的设计,由于每个数据块都可以冗余存储到多个节点上,更有利于分布式文件系统,提升了容错能
2021-10-30 19:28:21 346
原创 节点距离计算
节点距离=两个节点距离到达最近的共同祖先的距离总和如图:一代表集群一,二代表集群二;集群一中的1,2,3分别表示机架1,机架2,机架3;集群二中也是如此。机架1中n1,n2,n3,
2021-10-30 18:11:42 261
原创 HDFS读数据流程
一:HDFS客户端通过DistributedFileSystem向NameNode请求获得文件开始或全部block列表;二:在这个列表中对于每个返回的block,都包含其对应数据所在的DataNode地址;三:这些DataNode会按照Hadoop定义的集群拓扑结构计算得出与HDFS客户端之间的距离,然后再进行排序,HDFS客户端会优先从距离最近的DataNode上读取数据;四:HDFS客户端会利用FSDataInputStream的read()方法读取数据;五:FSDataInputStr
2021-10-30 13:54:54 1204
原创 HDFS写数据流程
大部分的HDFS程序对文件的操作是“一次写多次读取”的模式,以下为客户端在HDFS写数据的过程。一:HDFS客户端通过分布式文件系统向名称节点发出一个创建新文件的请求,名称节点通过多种验证确保客户端权限和没有相同的文件后,创建一个新的文件。二:输入客户端的数据被分成一个个数据块,通过文件流的方式进入各个数据节点,当一个数据块进入一个数据节点之后,会返回一个确认信息,当客户端完成所有的数据写入操作之后,就会向名称节点发出结束消息,并存好数据块。...
2021-10-26 21:57:50 203
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人