自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 HDFS写数据流程

HDFS写数据流程第一步 客户端通过调用HDFS创建文件,用RPC向namenode发起文件上传请求第二步 namenode检测客户端是否具有上传权限,并向客户端返回结果,将文件切分成若干block.第三步 客户端收到namenode的可以上传回应后,向namenode请求上传第一个 block第四步 namedode根据集群中 datanode的信息与机器感知,选出可以上传的三个主机,并向客户端返回datanode列表。因为考虑数据的安全性,数据文件在HDFS上默认存三份,本地一份

2021-12-10 16:16:48 1146

原创 统计学,机器学习,深度学习,数据挖掘

1.统计学统计学,研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。2深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。3.机器学习机器

2021-11-04 18:28:28 2139

原创 YARN工作机制

YARN工作机制第一步 Client 向ResourceManage提交工作,并申请一个job ID第二步 ResourceManage返回资源提交路径和job ID,每一个job都有一个唯一的ID第三步 Client接受返回后,根据信息上传计算机所需要的资源到指定位置第四步 Client上传完毕后向ResourceManage发送执行作业请求,ResourceManage根据请求创建ApplicationManager来管理此job。第五步 新创建的ApplicationManager

2021-11-02 22:15:47 138

原创 HDFS的block与split的区别

将文件上传到HDFS时,会被切分成指定大小的数据块,就是 block,这是实质上的物理划分。 切片划分是一种逻辑划分,为了更好的获取数据输入,默认情况下split 的大小与block大小一致,减小由于大小不一导致的多余网络间的传输。 Split的大小是允许用户自定义的,在程序输入数据的时候对数据进行标记。...

2021-11-02 20:50:56 96

原创 节点距离计算

节点距离计算节点距离等于两个节点到达最近的数据中心的距离总和,Namenode 选择距离上传距离最近距离的 Datanode接收数据同一机架的同一节点距离为0,同一机架不同节点间距离为1,同一集群与机架不间距离为2同一数据中心的不同集群上的节点,到数据中心的距离是3.,...

2021-11-02 20:29:09 105

原创 HDFS 读数据流程

HDFS读数据流程第一步客户端向namenode请求下载a文件第二步由namenode对客户端权限查看,若符合权限,与datanode建立联系,根据就近原则选择出每一个block对应的主机列表。第三步将block主机列表返回客户端第四步客户端与每一个block所在主机datanode间建立pipeline第五步开始数据读取,以packet(64k)大小开始读取,三个主机可以同时读取。第六步文件a的若干block读取完成后,将block合成完整的文件a后放入指定目录。...

2021-11-01 09:57:05 58

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除