- 博客(6)
- 收藏
- 关注
原创 2021-11-04
首先我们先了解一下统计学,机械学习,数据挖掘,深度学习。 1:统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。 统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。 2:机械学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。更是计算机人工智能的核心,让计算机有智慧的..
2021-11-04 23:30:57 413 1
原创 YARN的工作机制
YARN 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.用户使用客户端向 RM 提交一个任务job,同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置,如果没有特别指定,则使用默认设置。 2.RM 在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NM,通知它启动一个特殊的 container,称为 ApplicationM...
2021-11-02 23:23:03 184
原创 HDFS的block和切片的区别
在 hdfs 架构中,存在 blocks 的概念。 通常来说,hdfs中的一个block 是 64MB 。1.简单来说,split只是一个概念上的切片,他单单存在与虚拟之中,而block是物理上的分割,他将你储存的数据进行了分割。2.为了MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输split的大小在默认的情况下和HDFS的block切块大小一致,3.数据切片: 数据切片是逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据
2021-11-02 21:57:56 120
原创 节点距离计算
在同一节点上,它们之间的距离当然是0,2*0=0在同一机架上的不同节点,它们的共同祖先就是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2在同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到这个机架(距离1),然后到达集群(距离2),所以两个节点的距离为2+2=4在同一数据中心的不同集群上的节点,它们的共同祖先是数据中心,以此类推,一个节点到数据中心的距离是3,两个节点的距离就是3+3=6。***总的来说节点距离=两个节点到达最近的共同祖先的
2021-11-02 20:52:36 148
原创 HDFS写数据流
HDFS写数据流HDFS(Hadoop Distributed File System)是GFS的开源实现。1.与namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在2.namenode返回是否可以上传3.client请求第一个 block该传输到哪些datanode服务器上4. namenode返回3个datanode服务器1235. clinet请求三台datanode一个,选择1datanode(设datanode1为最近的服务器),1收到请求后会继续调
2021-10-28 22:00:04 817
原创 HDFS读数据流图
HDFS(Hadoop Distributed File System)是GFS的开源实现。客户端会先通知名称节点,名称节点会创建一个新的文件记录(确认没有相同文件和客户权限)。然后会将文件分成一块一块数据块默认大小会是128MB(当然你可以去改,不顾不推荐。因为块太小:寻址时间占比过高。块太大:Map任务数太少,作业执行速度变慢。它是最大的一个单位。)如今一般都是64MB,写数据时注意是会写冗余数据,冗余数据的个数默认是三个。冗余数据全部写完,数据节点向客户端发出确认,客户端再向名称节点结束消息,将..
2021-10-26 21:54:07 114
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人