自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 深度学习,统计学,机器学习,数据挖掘之间关系

深度学习是机器学习的技术之一,深度挖掘是机器学习的应用,数据挖掘由统计学来做支撑

2021-11-05 22:32:06 819

原创 HDFS的block和切片(split)的区别

1:split(切片)是在mapreduce时运用的;block是在用hdfs时运用的。2:split即为在block前,将文件先进行每块的标记,不对文件进行任何动作,是为了更好的让block更快的进行的预制操作,为了是mapreduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输3:block(切块),将文件从客户端上传到hdfs时,hdfs进行的操作,将文件分成一个一个的块,是物理意义上的划分4:split是逻辑意义上的划分...

2021-10-30 23:06:19 376 1

原创 节点距离计算

1:如在同一节点,节点间距离为02:如在同一机架,不同节点,它们的老大是这个机架,它们到机架的距离都为1,它们间距离为1+1=23:如在同一集群,不同机架,它们的老大是这个集群,它们要到达集群的话,要先经过机架(距离为1)在到达集群(距离为2),它们间距离为2+2=44:如在同一数据中心,不同集群,他们的老大是这个数据中心,它们要到数据中心的话,要先经过机架(距离为1),再到集群(距离为2),最后才到数据中心,它们间距离为3+3=6...

2021-10-30 22:46:51 148

原创 HDFS写数据流

大部分hdfs程序对文件操作采用" 一次写多次读取”的模式写数据过程:简述:客户端先通知nn节点:我要写文件了,确认客户端权限和没有相同的文件以后,nn节点创建一个新的文件记录;然后把文件分成一个一个的数据块(默认大小64mb)通过文件流的方式向dn节点中写数据,写数据的时候,注意是会写冗余数据,冗余数据块默认三个;最后,只有冗余数据块全部写完,dn节点再向客户端发出确认,然后客户端向nn节点发出结束消息,并将文件的块信息存储在nn节点里面。1:客户端调用分布式文件系统(Distribut...

2021-10-30 17:17:38 127

原创 HDFS读数据流

1:hdfs读数据过程:简述:先从nn节点得这些信息:1.这个文件有哪些数据块;2.这些数据块放在哪里或者是取哪个节点上的什么数据块。然后客户端直接从dn节点里面用数据流的方式来读取数据。最后关闭这个数据。1:客户端调用分布式文件系统对象中的open()函数来读取所需数据。2:distributed file system会通过rpc协议调用名称节点(name node)来确定所客户端请求的文件”“块”的位置。要注意的是,nn节只会返回调用文件中刚开始的那“几个”块,不会吧所有的块...

2021-10-30 15:29:17 137

原创 yarn的工作机制

yarn工作机制概述:1:用户向客户端提交一个任务(job)至资源管理器(resource manager),可以指定提交至哪个队列,要哪些资源,可对每个计算引擎进行设置。如未设置,一般会使用默认配置。2:资源管理器收到提交任务的请求后,开始会判断资源和队列满不满足要求来单独使用一个节点管理(node manager),通知节点管理启动一个储存容器(container)(container就是一个向节点管理申请一定资源(cpu,内存等)的程序),被称为应用程序包(app mstr),后面的流程...

2021-10-26 21:52:07 538

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除