自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学、数据挖掘、机器学习和深度学习的区别

统计学:通过搜索、整理、分析数据等手段,,以达到推断所测对象的本质甚至预测对象未来的一门综合性科学,用到了大量的数学及其他学科的专业知识。机器学习:设计和分析一些让计算机可以自动“学习”的算法,是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。数据挖掘:从数据库中揭示出隐含的、先前未知的并有潜在价值的信息的过程。深度学习:是机器学习中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。区别:统计学是机器学习和数据挖掘的基础,主要通过人

2021-11-03 21:20:22 583

原创 YARN的工作机制

YARN主要由两个核心步骤构成,分别是ResourceManager和NodeManager;当用YARN进行大数据计算时,可以划分为五个阶段:一:作业提交阶段:Client申请计算资源的应用并向整个集群提交job同时申请一个job-id,当ResourceManager收到Client的请求后,给Client返回一个资源提交路径和job-id,当Client收到ResourceManager的返回后,根据这些返回数据的值发送一个jar包,上传计算所需要的资源到指定的位置,之后向ResourceMana

2021-10-30 23:04:39 1284

原创 HDFS的block与切片(split)的区别

一:block是HDFS在物理上把数据分成一块块的,是存在于磁盘中的,而切片只是在逻辑上对输入的数据进行分片,并不会在磁盘上将其切分成片进行存储;二:HDFS的block很大,在保存文件时,小于block的文件不会占用一个block的空间,而切片中即使一个文件小于一个切片也会占用一个切片的空间;三:一个切片只能属于一个文件,而一个block中可以有很多个文件;四:HDFS的block大大简化了储存管理以及子系统的设计,由于每个数据块都可以冗余存储到多个节点上,更有利于分布式文件系统,提升了容错能

2021-10-30 19:28:21 346

原创 节点距离计算

节点距离=两个节点距离到达最近的共同祖先的距离总和如图:一代表集群一,二代表集群二;集群一中的1,2,3分别表示机架1,机架2,机架3;集群二中也是如此。机架1中n1,n2,n3,

2021-10-30 18:11:42 261

原创 HDFS读数据流程

一:HDFS客户端通过DistributedFileSystem向NameNode请求获得文件开始或全部block列表;二:在这个列表中对于每个返回的block,都包含其对应数据所在的DataNode地址;三:这些DataNode会按照Hadoop定义的集群拓扑结构计算得出与HDFS客户端之间的距离,然后再进行排序,HDFS客户端会优先从距离最近的DataNode上读取数据;四:HDFS客户端会利用FSDataInputStream的read()方法读取数据;五:FSDataInputStr

2021-10-30 13:54:54 1204

原创 HDFS写数据流程

大部分的HDFS程序对文件的操作是“一次写多次读取”的模式,以下为客户端在HDFS写数据的过程。一:HDFS客户端通过分布式文件系统向名称节点发出一个创建新文件的请求,名称节点通过多种验证确保客户端权限和没有相同的文件后,创建一个新的文件。二:输入客户端的数据被分成一个个数据块,通过文件流的方式进入各个数据节点,当一个数据块进入一个数据节点之后,会返回一个确认信息,当客户端完成所有的数据写入操作之后,就会向名称节点发出结束消息,并存好数据块。...

2021-10-26 21:57:50 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除