自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 统计学,机器学习,数据挖掘和深度学习之间的区别

1.统计学统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关決策提供依据和参考,其不仅仅是统计数宇,还包含了调查、收集、分析、预测等,应用范围十分广泛。2.数据挖掘数据挖掘也就是data mining,是一个很宽泛的概念。字面意思就是从成吨的数据里面掘有用的信息数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。3.机器学习机器学习是一门多领域交叉学科,涉及概

2021-11-07 17:31:19 292

原创 YARN的工作机制

0.MR程序提交到客户端所在节点1.申请一个application(resource manager)2.application资源提交路径hdfs://.../staging以及application_id3.提交job运行所需资源4.资源提交完毕,申请运行mrAppMaster5.将用户的请求初始化成一个task6.领取到task任务(MRAppmaster)7.创建容器container(MRAppmaster)8.下载job资源到本地(MRAppmaster)9.申请运行map T

2021-10-31 19:25:20 55

原创 HDFS的block和切片(split)的区别

1.block是物理上的数据分割,而split是逻辑上的分割。2.如果没有特别指定,split size 就等于 HDFS 的 block size 。3.用户可以在M/R 程序中自定义split size。4.一个split 可以包含多个blocks,也可以把一个block应用多个split操作。5.有多少个split,就有多少个mapper。...

2021-10-31 19:15:56 41

原创 节点距离计算

1.在同一节点上,它们之间的距离当然是0,2*0=02.在同一机架上的不同节点,它们的共同祖先就是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=23.在同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到这个机架(距离1),然后到达集群(距离2),所以两个节点的距离为2+2=44.在同一数据中心的不同集群上,它们的共同祖先是数据中心,以此类推,一个节点到数据中心的距离是3,两个节点的距离就是3+3=6 #节点距离=两个节点到达最近...

2021-10-31 19:05:10 79

原创 HDFS写数据流程

HDFS写数据流程1.客户端通只名称节点(SecondaryNameNode):我要写文件了,确认客户端权限以及没有相同的文件后,SNN创建一个新的文件记录;2.将文件分成一个个的数据块(默认大小64MB);3.通过文件流的方式往数据节点中写数据,(注意:会写冗余数据,默认冗余数据块是3个);4.只有冗余数据块全部写完,数据节点再向客户端发出确认,然后客户端向SNN发出结束消息,并将文件的块信息存储在SNN中;...

2021-10-26 23:40:02 789

原创 2021-10-26

HDFS写数据流程1.客户端通只名称节点(SecondaryNameNode):我要写文件了,确认客户端权限以及没有相同的文件后,SNN创建一个新的文件记录;2.将文件分成一个个的数据块(默认大小64MB);3.通过文件流的方式往数据节点中写数据,(注意:会写冗余数据,默认冗余数据块是3个);4.只有冗余数据块全部写完,数据节点再向客户端发出确认,然后客户端向SNN发出结束消息,并将文件的块信息存储在SNN中;...

2021-10-26 23:34:57 513

原创 2021-10-26

HDFS读数据流程1.从名称节点获取如下信息:(1)该文件有哪些数据块;(2)这些数据块都放在哪里(取哪个节点上的什么数据块);2.客户端直接从数据节点中以数据流的方式读取数据;3.关闭这个数据流;...

2021-10-26 23:28:58 61

原创 2021-10-26

HDFS写数据流程1.客户端通只名称节点(SecondaryNameNode):我要写文件了,确认客户端权限以及没有相同的文件后,SNN创建一个新的文件记录;2.将文件分成一个个的数据块(默认大小64MB);3.通过文件流的方式往数据节点中写数据,(注意:会写冗余数据,默认冗余数据块是3个);4.只有冗余数据块全部写完,数据节点再向客户端发出确认,然后客户端向SNN发出结束消息,并将文件的块信息存储在SNN中;...

2021-10-26 23:06:10 43

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除