大数据导论作业
作业
Lin_1013
这个作者很懒,什么都没留下…
展开
-
统计学,机器学习,数据挖掘和深度学习之间的区别
1.统计学统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等,应用范围十分广泛。2.数据挖掘也就是 data mining ,是一个很宽泛的概念。字面意思就是从成吨的数据里面挖掘有用的信息。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。3.机器学习机器学习是一门多领域交叉学科,涉及概率论、统计原创 2021-11-12 13:33:41 · 216 阅读 · 0 评论 -
节点距离计算
两个节点到达最近的共同祖先的离总和原创 2021-10-30 21:54:11 · 102 阅读 · 0 评论 -
YARN的工作机制
1. 用户使用客户端向 RM 提交一个任务,同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置,如果没有特别指定,则使用默认设置。2. RM 在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NM,通知它启动一个特殊的 container,称为 ApplicationMaster(AM),后续流程由它发起。3. AM 向 RM 注册后根据自己任务的需要,向 RM 申请 container,包括数量、所需资源量、所在位置等因素。4. 如果队列有足够资源,RM原创 2021-10-29 22:54:17 · 99 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
split是mapreduce中的概念,而block是hdfs中切块的大小。split的大小时默认和hdfs的block块大小一致,但是可以通过配置文件自己设置HDFS以固定大小的block为基本单位存储数据(分布式文件系统,实际存储角度,物理存储单位);MapReduce以split作为处理单位(编程模型角度,逻辑单位);...原创 2021-10-29 22:51:04 · 109 阅读 · 0 评论 -
HDFS读数据流
1.客户端通过函数读取它需要的数据2.Distributed File System通过RPC协议调用名称节点确定文件的位置3.客户端利用FSDataInputStream的Read()开始读数据4.FSD保存文件的第一个数据块的最近的数据节点,以数据流的形式读取数据,客户端多次调用Read()直到到达数据块结束位置5.第一块读完时,DFSDataInput Stream会关闭连接,并查找下个数据库离客户端最近的数据节点6.客户端完成所有文件的读取后调用函数关闭数据流...原创 2021-10-29 22:36:11 · 102 阅读 · 0 评论 -
HDFS写数据流程
1.客户端通过调用分布式文件系统对象中的Great()创建文件,分布式文件系统通过RPC调用的名称节点的文件系统命名空间创建一个新文件。2.名称节点通过验证,确保请求用户拥有权限,新的文件不存在文件系统里。验证通过时名称节点会创造一个新的文件的记录。如果创建失败,则IOException异常。如果成功,分布式文件系统返回文件系统数据输出给客户端写数据。这时包含了一个数据流对象,客户端使用它来处理数据和名称两个节点的通信。3.客户端调用FSD的Write()函数。向对应的文件写入数据。4.原创 2021-10-29 17:30:15 · 192 阅读 · 0 评论