自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学,机器学习,数据挖掘,深度学习的区别

机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术,深度学习是机器学习的一种。深度学习与机器学习的主要区别是在于性能。统计学与机器学习是在研究模型与算法,统计学基于数学,而机器学习基于机器自主学习,是数学、统计学、计算机科学的交汇融合。机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。...

2021-11-04 22:34:13 705

原创 节点距离计算

jiedian节点距离计算:两个节点到达最近的共同祖先的距离总和。集群可认为机房。DiStance(d1/r1/n0, d1/r1/n0) =0(同一节点上的进程)Distance (d1/r1/n1, d1/r1/n2) =2 (同一机架上的不同节点)Distance (d1/r2/n0,d1/r3/n2) =4 (同一数据中心不同机架上的节点)Distance(d1/r2/n1,d2/r4/n1) =6 (不同数据中心的节点)注意:要一步一步来计算,直至到最近共同祖先,每一.

2021-10-30 12:23:58 288

原创 YARN的工作机制

在 Hadoop1.0 中,MapReduce 的 JobTracker 负责了太多的工作,包括资源调度,管理众多的 TaskTracker 等工作。这自然是不合理的,于是 Hadoop 在 1.0 到 2.0 的升级过程中,便将 JobTracker 的资源调度工作独立了出来,而这个独立出来的资源管理框架,就是 Yarn 。几个重要组成介绍:1,Container:容器。容器由NodeManager启动和管理,并被它所监控。 ...

2021-10-29 21:37:52 613

原创 HDFS的block与切片(split)的区别

一:block是物理上的数据分割,split是逻辑上的数据分割。二: 用户可自定义split size。三:一个split不会包含零星点几或者几点几个block,一定是包含大于等于一个个整数个block。四:一个split不会包含两个file的block,不会跨越file边界。五:split和block是一对多的关系。六:maptasks的个数最终决定于splits的长度。举例:File 1:Block1,Block2,Block3,Block4,Block5File...

2021-10-29 19:36:54 273

原创 HDFS读数据流程图

1,客户端给namenode发起文件下载请求。2,namenode返回文件存储所在的datanode block块信息。3,客户端根据拿到的block信息与距离最近的切片所在的datanode 建立通道信息,获取文件切片。4,datanode将该节点上的切片信息传输给客户端。5,如果没有获取到所有的切片信息,再与距离最近其他切片副本所在的datanode建立通信通道,获取该节点的切片。如此重复,直到获取到所有的切片信息。6.客户端拿到所有的切片后,将切片组装称完整的文件。...

2021-10-29 18:55:12 211

原创 HDFS写数据流程

HDFS写数据流程图

2021-10-26 21:38:20 666

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除