自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 机器学习 数据挖掘 统计学 深度学习

机器学习:广泛的定义为 “利用经验来改善计算机系统的自身性能。”,事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。数据挖掘:一种解释是“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”,顾名思义,数据挖掘就是试图从海量数据中找出有用的知识。数据挖掘与统计学统计学,搜集、展示、分析及解释数据的科学,统计分不是方法的集合,而是处理数据的科学。数据挖掘,

2021-11-05 10:32:27 519

原创 YARN的工作机制

用户使用客户端向 RM 提交一个任务,同时指定提交到哪个队列和需要多少资源。RM 在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NM,通知它启动一个特殊的 container,称为 ApplicationMaster(AM),后续流程由它发起。AM 向 RM 注册后根据自己任务的需要,向 RM 申请 container,包括数量、所需资源量、所在位置等因素。如果队列有足够资源,RM 会将 container 分配给有足够剩余资源的 NM,由 AM 通知 NM 启动 c...

2021-11-03 13:39:28 59

原创 HDFS 的 block和切片 ( split)的 区别

HDFS 的 block和切片 ( split)的 区别1.数据块的 block: 是 HDFS 物理数据块,一个大文件丢到 HDFS 上,会被 HDFS 切分成指定大小的数据块,即 block 。2.数据 切片 : 数据 切片 是逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据。...

2021-11-02 23:33:24 96

原创 节点距离计算

节点距离,指的是两个节点间的最短路径的长度。. 为了获得最短距离,通常可以采用图的深度优先遍历,或者广度优先遍历。. 对于一个较大的网络,想要获得从一个节点到所有节点的距离,会推荐使用 广度优先遍历,因为广度优先遍历可以一层一层的进行计算距离。. 接下来介绍几个用于描述网络节点距离的参数. Average distance: 这个很好理解,就是所有两两节点之间的最短距离的平均值,最直接的描述了图的紧密程度。. Eccentricity:这个参数描述的是从任意一个节点,到达其他节点的最大距离. Diam

2021-11-02 23:22:46 597

原创 HDAFS读数据流

1、与NameNode通信查询元数据,找到文件块所在的DataNode服务器2、挑选一台DataNode(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)服务器,请求建立socket流3、DataNode开始发送数据(从磁盘里面读取数据放入流,以packet(一个packet为64kb)为单位来做校验)4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件  21大数据于泽...

2021-10-26 21:33:58 97

原创 HDFS写数据流

1、与NameNode通信查询元数据,找到文件块所在的DataNode服务器2、挑选一台DataNode(网络拓扑上的就近原则,如果都一样,则随机挑选一台DataNode)服务器,请求建立socket流3、DataNode开始发送数据(从磁盘里面读取数据放入流,以packet(一个packet为64kb)为单位来做校验)4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件21大数据一班于泽...

2021-10-26 21:17:39 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除