![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据导论
m0_62922133
这个作者很懒,什么都没留下…
展开
-
统计学,机器学习,深度学习,数据挖掘
1.统计学统计学,研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。2深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。3.机器学习机器原创 2021-11-04 18:28:28 · 2133 阅读 · 0 评论 -
YARN工作机制
YARN工作机制第一步 Client 向ResourceManage提交工作,并申请一个job ID第二步 ResourceManage返回资源提交路径和job ID,每一个job都有一个唯一的ID第三步 Client接受返回后,根据信息上传计算机所需要的资源到指定位置第四步 Client上传完毕后向ResourceManage发送执行作业请求,ResourceManage根据请求创建ApplicationManager来管理此job。第五步 新创建的ApplicationManager原创 2021-11-02 22:15:47 · 128 阅读 · 0 评论 -
HDFS的block与split的区别
将文件上传到HDFS时,会被切分成指定大小的数据块,就是 block,这是实质上的物理划分。 切片划分是一种逻辑划分,为了更好的获取数据输入,默认情况下split 的大小与block大小一致,减小由于大小不一导致的多余网络间的传输。 Split的大小是允许用户自定义的,在程序输入数据的时候对数据进行标记。...原创 2021-11-02 20:50:56 · 92 阅读 · 0 评论 -
节点距离计算
节点距离计算节点距离等于两个节点到达最近的数据中心的距离总和,Namenode 选择距离上传距离最近距离的 Datanode接收数据同一机架的同一节点距离为0,同一机架不同节点间距离为1,同一集群与机架不间距离为2同一数据中心的不同集群上的节点,到数据中心的距离是3.,...原创 2021-11-02 20:29:09 · 100 阅读 · 0 评论 -
HDFS 读数据流程
HDFS读数据流程第一步客户端向namenode请求下载a文件第二步由namenode对客户端权限查看,若符合权限,与datanode建立联系,根据就近原则选择出每一个block对应的主机列表。第三步将block主机列表返回客户端第四步客户端与每一个block所在主机datanode间建立pipeline第五步开始数据读取,以packet(64k)大小开始读取,三个主机可以同时读取。第六步文件a的若干block读取完成后,将block合成完整的文件a后放入指定目录。...原创 2021-11-01 09:57:05 · 52 阅读 · 0 评论