自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学,数据挖掘,深度学习和机器学习的定义和关系

定义:统计学:统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。数据挖掘:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。也可以叫数据深层采集,数据勘探,利用各种技术与统计方法,将大量的历史数据,进行整理分析,归纳与整合。深度学习:深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数

2021-11-05 10:48:42 389

原创 HDFS的block(块)和split(切片)的区别

1.HDFS的block(块)和split(切片)的区别block是HDFS在物理上把数据分成一块一块的存在磁盘中。HDFS的block很大,保存文件时小于block的文件不会占用一个block的空间。block中可以有很多文件。block能够集中存储。切片是在逻辑上对输入的数据进行分片,不会在磁盘上将切片存储。切片中一个文件即使小于切片也会占用一个切片的空间。切片只属于一个文件。切片机制:(1)简单地按照文件的内容长度进行切片(2)切片大小,默认等于Block大小(3)切

2021-11-03 23:16:38 271

原创 Yarn的简介及工作流程

Apache Yarn(Yet Another Resource Negotiator)是hadoop的集群资源管理器系统,Yarn从hadoop 2.0开始引入,最初是为了改善Map Reduce的实现,但是它具有通用性,同样执行其他分布式计算模式。Yarn很好解决了MapReduce1.0中的局限性,所以针对MapReduce1.0,Yarn就有了如下特点:支持非MapReduce应用的需求可扩展性提高资源是用率用户敏捷性可以通过搭建为高可用Yarn从整体上还是属于master/slav

2021-11-03 13:46:03 365

原创 节点距离计算

节点距离,指的是两个节点间的最短路径的长度。为了获得最短距离,通常可以采用图的深度优先遍历,或者广度优先遍历。对于一个较大的网络,想要获得从一个节点到所有节点的距离,会推荐使用 广度优先遍历,因为广度优先遍历可以一层一层的进行计算距离。接下来介绍几个用于描述网络节点距离的参数Average distance: 这个很好理解,就是所有两两节点之间的最短距离的平均值,最直接的描述了图的紧密程度。 Eccentricity:这个参数描述的是从任意一个节点,到达其他节点的最大距离 Diameter:图中

2021-11-03 13:39:24 1477

原创 HDFS的数据写入

HDFS写数据流程1.初始化FileSystem,客户端调用create()来创建文件。2.FileSystem调用元数据节点,在文件系统的命名空间中创建一个新的文件,元数据节点确定文件原来不存在后,给客户端创建文件的权限,然后创建新文件。3.FileSystem返回DFSOutputStream,客户端用于写数据,客户端开始写入数据。4.DFSOutputStream将数据分成块,写入data queue。data queue由Data Streamer读取,并通知元数据节点分配数据节点,

2021-10-26 21:09:02 666

原创 HDFS的数据读取

HDFS读数据流程1.客户端用函数open()打开文件 。2..FileSystem调用元数据节点,得到数据块信息,并对每一个数据块、元数据节点返回,保存数据块的数据节点地址。3.客户端调用stream的read()函数开始读取数据。4.FSDataInputStream连接保存此文件第一个数据块的最近的数据节点datanode,data从数据节点读到客户端。5.当第一个数据块读取完毕时,DFSInputStream关闭和此数据节点的连接,然后连接此文件下一个数据块的最近的数据节点。

2021-10-26 21:04:44 712

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除