大数据导论作业
大数据
下凡冲浪辛苦了
这个作者很懒,什么都没留下…
展开
-
HDFS写数据流
HDFS写数据流1.客户端通过调用创建新文件。2.客户端向名称节点请求上传新文件。(文件1、文件2、文件3)3.名称节点通过多种验证,检测上传权限。4.成功则返回通知客户端:可以上传;失败则显示IOException异常。5.客户端请求上传文件1。6.名称节点为新的文件包分配合适的数据节点dn1、dn2、dn3。(机架感知和储存空间)7.返回告知客户端dn1、dn2、dn3。8.客户端与数据节点1间建立【管道】,dn1与dn2建立【管道】,dn2与dn3建立【管道】。9.原创 2021-10-26 21:43:57 · 89 阅读 · 0 评论 -
数据分析(分析方法)
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。机器学习(Machine Learning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中原创 2021-11-03 20:19:54 · 653 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
HDFS以固定大小的block为基本单位存储数据(分布式文件系统,实际存储角度,物理存储单位);MapReduce以split作为处理单位(编程模型角度,逻辑单位);hadoop在默认的情况下,split和hdfs的block的大小是一样的。HDFS的block:在 hdfs 架构中,存在 blocks 的概念。 通常来说,hdfs中的一个block 是 64MB 。 当我们把一个大文件导入hdfs中的时候,文件会按 64MB 每个block来分割(版本不同,默认配置可能不同)。 如果你有1原创 2021-10-30 19:50:48 · 385 阅读 · 0 评论 -
节点距离计算
在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢?节点距离:两个节点到达最近的共同祖先的距离总和(若不是共同祖先,即继续向上寻找)。节点到本机架的距离为1;机架到本集群(同一数据)的距离为1;集群到集群的父亲的距离为1;举例: d1-r1-n1和d1-r1-n1的距离为0; d1-r1-n1和d1-r1-n2的距离为2;(共同祖先为r1,n1到r1为1,n2到r1为1,总和为...原创 2021-10-30 19:18:53 · 208 阅读 · 0 评论 -
YARN的工作流程
ResourseManager:处理客户端请求,监控nodemanager,资源的分配和调度;Nodemanager:管理单个节点资源,处理来自resoursemanager,appclitionMaster命令;MRapplictionMaster:(单个job的老大)数据切分,为这个应用程序申请资源并分配内部的任务,任务的监控和容错。...原创 2021-10-30 16:37:00 · 79 阅读 · 0 评论 -
HDFS读数据流
1.客户端向namenode请求下载文件。2.namenodde进行权限检查(客户端无权限下载或文件不存在),namenode进行文件block列表检查。3.选出每一个block对应的主机列表。4.向客户端返回主机列表。5.客户端和block对应的主机间分别建立【管道】。6.开始数据的读取,读取的单位packet(64k)。7.将block合并为一个完整的文件。...原创 2021-10-30 14:15:44 · 70 阅读 · 0 评论