![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据导论作业
文章平均质量分 56
作业
tngrrr
这个作者很懒,什么都没留下…
展开
-
统计学,数据挖掘,深度学习和机器学习的定义和关系
定义:统计学:统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。数据挖掘:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。也可以叫数据深层采集,数据勘探,利用各种技术与统计方法,将大量的历史数据,进行整理分析,归纳与整合。深度学习:深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声原创 2021-11-03 21:50:30 · 2642 阅读 · 0 评论 -
HDFS的读数据流
HDFS采用的文件读取模式是“一个文件一旦创建,写入,关闭之后就不能修改”。保证了数据的一致性,并能够实现数据访问高吞吐量。客户端读数据流程如下:首先,客户端通过调用分布式系统对象中的Open()函数来读取它所需的数据。...原创 2021-11-02 22:03:38 · 187 阅读 · 0 评论 -
HDFS写数据流
HDFS写数据流程客户端通过调用,分布式文件系统对象中的Create()创建一个文件。分布式文件系统通过RPC调用的名称节点中的文件系统命名空间创建一个新文件。Namedode通过多种验证,确认客户端权限和没有相同的文件后,创建一个新的文件记录。验证未通过,则为创建失败,会显示IOException异常。验证通过,则分布式文件系统会返回文件系统数据输出流 让客户端去写数据。将文件分成数据块,通过数据流的方式往数据节点中写数据。客户端调用DFSDataOutputStream的Write()函数,原创 2021-10-31 19:44:46 · 120 阅读 · 0 评论 -
Yarn的简介及工作机制
Apache Yarn(Yet Another Resource Negotiator)是hadoop的集群资源管理器系统,Yarn从hadoop 2.0开始引入,最初是为了改善Map Reduce的实现,但是它具有通用性,同样执行其他分布式计算模式。Yarn很好解决了MapReduce1.0中的局限性,所以针对MapReduce1.0,Yarn就有了如下特点:支持非MapReduce应用的需求可扩展性提高资源是用率用户敏捷性可以通过搭建为高可用Yarn从整体上还是属于master/sla原创 2021-10-30 10:46:44 · 225 阅读 · 0 评论 -
节点距离计算
在说明怎么计算节点距离之前,先说一下什么叫节点距离吧。节点距离:两个节点到达最近的共同祖先的距离总和,简单点说就是两个节点间的最短路径的长度。用于描述网络节点距离的参数有很多种,如:Average distance: 这个很好理解,就是所有两两节点之间的最短距离的平均值,最直接的描述了图的紧密程度。Eccentricity:这个参数描述的是从任意一个节点,到达其他节点的最大距离。Diameter:图中的最大两个节点间的距离。Radius:图中的最小两个节点间的距离.。Periphery: 和原创 2021-10-29 16:27:33 · 1311 阅读 · 0 评论 -
HDFS的block(块)和split(切片)的区别
定义上的区别block(块)定义:block(块)是从一个大规模文件上分出来,存储在每个数据节点(DataNode)(默认3个)上,并由HDFS文件系统默认的存储最小单位(64MB或者128MB),是物理块。split(切片)定义:split(切片)是mapreduce中的map task开始之前,将文件按指定大小切割后的若干部分,默认大小与block(块)一样,同为64MB(128MB),是逻辑上的分片。可以看出来,两者是从不同的角度来定义的:block是hdfs中切块的大小,block是物理原创 2021-10-29 16:22:44 · 1844 阅读 · 1 评论