自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 统计学,数据挖掘,深度学习和机器学习的定义和关系

定义:统计学:统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。数据挖掘:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。也可以叫数据深层采集,数据勘探,利用各种技术与统计方法,将大量的历史数据,进行整理分析,归纳与整合。深度学习:深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声

2021-11-03 21:50:30 2642

原创 HDFS的读数据流

HDFS采用的文件读取模式是“一个文件一旦创建,写入,关闭之后就不能修改”。保证了数据的一致性,并能够实现数据访问高吞吐量。客户端读数据流程如下:首先,客户端通过调用分布式系统对象中的Open()函数来读取它所需的数据。...

2021-11-02 22:03:38 187

原创 HDFS写数据流

HDFS写数据流程客户端通过调用,分布式文件系统对象中的Create()创建一个文件。分布式文件系统通过RPC调用的名称节点中的文件系统命名空间创建一个新文件。Namedode通过多种验证,确认客户端权限和没有相同的文件后,创建一个新的文件记录。验证未通过,则为创建失败,会显示IOException异常。验证通过,则分布式文件系统会返回文件系统数据输出流 让客户端去写数据。将文件分成数据块,通过数据流的方式往数据节点中写数据。客户端调用DFSDataOutputStream的Write()函数,

2021-10-31 19:44:46 120

原创 Yarn的简介及工作机制

Apache Yarn(Yet Another Resource Negotiator)是hadoop的集群资源管理器系统,Yarn从hadoop 2.0开始引入,最初是为了改善Map Reduce的实现,但是它具有通用性,同样执行其他分布式计算模式。Yarn很好解决了MapReduce1.0中的局限性,所以针对MapReduce1.0,Yarn就有了如下特点:支持非MapReduce应用的需求可扩展性提高资源是用率用户敏捷性可以通过搭建为高可用Yarn从整体上还是属于master/sla

2021-10-30 10:46:44 225

原创 节点距离计算

在说明怎么计算节点距离之前,先说一下什么叫节点距离吧。节点距离:两个节点到达最近的共同祖先的距离总和,简单点说就是两个节点间的最短路径的长度。用于描述网络节点距离的参数有很多种,如:Average distance: 这个很好理解,就是所有两两节点之间的最短距离的平均值,最直接的描述了图的紧密程度。Eccentricity:这个参数描述的是从任意一个节点,到达其他节点的最大距离。Diameter:图中的最大两个节点间的距离。Radius:图中的最小两个节点间的距离.。Periphery: 和

2021-10-29 16:27:33 1311

原创 HDFS的block(块)和split(切片)的区别

定义上的区别block(块)定义:block(块)是从一个大规模文件上分出来,存储在每个数据节点(DataNode)(默认3个)上,并由HDFS文件系统默认的存储最小单位(64MB或者128MB),是物理块。split(切片)定义:split(切片)是mapreduce中的map task开始之前,将文件按指定大小切割后的若干部分,默认大小与block(块)一样,同为64MB(128MB),是逻辑上的分片。可以看出来,两者是从不同的角度来定义的:block是hdfs中切块的大小,block是物理

2021-10-29 16:22:44 1844 1

原创 节点距离计算

在说明怎么计算节点距离之前,先说一下什么叫节点距离吧。节点距离:两个节点到达最近的共同祖先的距离总和,简单点说就是两个节点间的最短路径的长度。用于描述网络节点距离的参数有很多种,如:Average distance: 这个很好理解,就是所有两两节点之间的最短距离的平均值,最直接的描述了图的紧密程度。Eccentricity:这个参数描述的是从任意一个节点,到达其他节点的最大距离。Diameter:图中的最大两个节点间的距离。Radius:图中的最小两个节点间的距离.。Perip.

2021-10-26 23:44:51 988

原创 HDFS的block(块)和split(切片)的区别

定义上的区别block(块)定义:block(块)是从一个大规模文件上分出来,存储在每个数据节点(DataNode)(默认3个)上,并由HDFS文件系统默认的存储最小单位(64MB或者128MB),是物理块。split(切片)定义:split(切片)是mapreduce中的map task开始之前,将文件按指定大小切割后的若干部分,默认大小与block(块)一样,同为64MB(128MB),是逻辑上的分片。可以看出来,两者是从不同的角度来定义的:block是hdfs中切块的大小,bl

2021-10-26 22:35:06 638

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除