大数据导论
大数据导论
labelSara
这个作者很懒,什么都没留下…
展开
-
2021-11-04
统计数据 统计学的研究对象和方法、统计学的基本范畴、统计组织和管理、统计调查的意义和种类、统计调查方案、统计调查方法、统计整理的意义和内容、统计分组、统计分布、统计表、总量指标、相对指标、平均指标、变异指标、综合指标的应用、抽样推断的意义和内容、抽样误差、抽样估计的方法、抽样组织的设计、假设检验的意义与假设命题、假设检验方法、符合检验与秩和检验、相关的意义和种类、相关图表和相关系数、回归分析、指数的意义和种类、综合指数和平均指数、因素分析、指数数列。 背景 统计学是在统计实践的基础上,自17世纪中叶产生原创 2021-11-04 23:28:53 · 371 阅读 · 0 评论 -
统计学。。
统计学原理包括: 统计学的研究对象和方法、统计学的基本范畴、统计组织和管理、统计调查的意义和种类、统计调查方案、统计调查方法、统计整理的意义和内容、统计分组、统计分布、统计表、总量指标、相对指标、平均指标、变异指标、综合指标的应用、抽样推断的意义和内容、抽样误差、抽样估计的方法、抽样组织的设计、假设检验的意义与假设命题、假设检验方法、符合检验与秩和检验、相关的意义和种类、相关图表和相关系数、回归分析、指数的意义和种类、综合指数和平均指数、因素分析、指数数列。 背景 统计学是在统计实践的基础上,自17世纪原创 2021-11-04 20:55:58 · 219 阅读 · 0 评论 -
HDFS的block和切片的区别
文件不可分割,一个文件一个split。文件可分割才会考虑与HDFS的block大小有关Block与Splite区别:Block是HDFS物理上把数据分成一块一块;数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。一个512M的文件在HDFS上存储时,默认一个block为128M,那么该文件需要4个block进行物理存储;若对该文件进行切片,假设以100M大小进行切片,该文件在逻辑上需要切成5片,则需要5个MapTask任务进行处理。 切片机制 一个超大文件在HDFS上存储时,是以多个原创 2021-11-03 00:47:02 · 172 阅读 · 0 评论 -
HDFS读数据流程
第一步;请求下载文件/user/atguigw/ss.av会带着这个路径向NameNode发送请求 第二步;Namenode接受到请求之后会先判新该用户是否有权限,读取的文件是否存在,如果都无误的话他会将文件的元数据也就是文件所在 datenode节点的位置发送给客户端,再发送给容户媒一次会发送部分或者界全部的datenode节点位置,客户端得到文件,数据块的存储位置之后会调用read方法去读取数据,读取数据谈之前他会先进行一个cheosum行转和的接作,去判斯一下校验和是否是否正确,正确则读不正...原创 2021-11-03 00:59:59 · 211 阅读 · 0 评论 -
节点距离计算
节点距离;两个节点到达最近的共同祖先的距离总和 在HDFS写数据的过程中,Namenode会选择距离待上传距离的Datenode接收数据。原创 2021-11-03 01:08:20 · 114 阅读 · 0 评论 -
YARN的工作机制
(1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAppMaster。 (6)RM将用户的请求初始化成一个Task。 (7)其中一个NodeManager领取到Task任务。 (8)该NodeManager创建容器Container,并产生MRAppmaster。 (9)Conta.原创 2021-11-03 01:18:33 · 83 阅读 · 0 评论 -
HDFS写数据流程
第一步;请求下载文件/user/atguigu/ss.avi会带着这个路径向Namenode发送请求 第二步;Namenode接收到请求之后会先判断该用户是否有权限,读取的文件是否存在,如果都无误的话他会将文件的元数据也就是文件所在datenode节点的位置发送给客户端,再发送给客户端一次会发送部分或者是 ...原创 2021-11-02 23:13:57 · 61 阅读 · 0 评论