自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据挖掘,机器学习,深度学习,统计学之间的联系

1.数据挖掘:data mining,是一个很宽泛的概念。字面的意思是从成吨的数据里面挖掘有用的信息。这个工作BI(商业智能)可以做,数据分析可以做,甚至市场运营也可以做。利用Excel分析数据,发现了一些有用的信息,然后通过这些信息指导你的Business的过程也是数据挖掘的过程。2.机器学习:machine learning,是计算机科学和统计学的交叉学科,基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习

2021-11-04 22:42:16 846

原创 HDFS中block与split的区别

hadoop在默认的情况下,split和hdfs的block的大小是一样的,这样容易造成误解认为两者是一样的,下面说下两者的区别和联系:1. split是MapReduce里的概念,是切片的概念,split是逻辑切片 ;而block是hdfs中切块的大小,block是物理切块;2. split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。 1.如果blockSi...

2021-11-02 09:23:22 346

原创 节点距离的计算

节点距离=两个节点到达最近的共同祖先的距离总和在同一节点上,它们之间的距离当然是0,2*0=0在同一机架上的不同节点,它们的共同祖先就是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2在同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到这个机架(距离1),然后到达集群(距离2),所以两个节点的距离为2+2=4在同一数据中心的不同集群上,它们的共同祖先是数据中心,以此类推,一个节点到数据中心的距离是3,两个节点的距离就是3+3=6...

2021-11-01 22:10:50 182

原创 YARN的工作机制

将YARN工作的机制分为五个阶段1.作业提交阶段2.作业初始化阶段3.任务分配阶段4.任务运行阶段5.作业完成阶段作业提交阶段:1-4客户端向ResourceManager提交作业,并且请求申请一个JobId客户端拿到ResourceManager返回的JobId后,会进行配置,然后根据ResourceManager提供路径向集群上传本次作业所需要资源(如;jar包,xml配置等)作业初始化阶段:5-8资源递交完毕后,客户端向ResourceManag...

2021-11-01 18:41:09 254

原创 HDFS读数据流程

在讨论HDFS读写流程之前我们首先必须得知道什么是block、packet、chunk。1.block文件上传前需要分块,这个块就是block,一般为128MB,当然你可以去改,不顾不推荐。因为块太小:寻址时间占比过高。块太大:Map任务数太少,作业执行速度变慢。它是最大的一个单位。2.packetpacket是第二大的单位,它是client端向DataNode,或DataNode的PipLine之间传数据的基本单位,默认64KB。3.chunkchunk是最小的单位,它是c...

2021-10-29 11:33:39 125

原创 HDFS写入数据的流程

1.客户端向NameNode发出写文件请求。2.namenode收到客户端的请求后,首先会检测元数据的目录树;检查权限并判断待上传的文件是否已存在,如果已存在,则拒绝client的上传。如果不存在,则响应客户端可以上传。3. 客户端收到可以上传的响应后,会把待上传的文件切块(hadoop2.x默认块大小为128M);然后再次给namenode发送请求,上传第一个block块。4.namenode收到客户端上传block块的请求后,首先会检测其保存的datanode信息...

2021-10-26 22:13:44 3261

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除