自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 数据挖掘,机器学习,深度学习,统计学

1.数据挖掘:从庞大的大数据中找到有价值的数据。通过分析每个数据,找到其规律。主要步骤为 数据准备,规律寻找,规律展示。(1.数据准备:整合需要用到的数据集。2.规律寻 找:寻找数据集的规律。3.规律展示:用可视化的方法把规则展示出来。)2.机器学习:主要应用对象为人工智能,它的最终目的是让机器具备人类一样的智慧,现阶段还只 能做的让机器拥有智能(例如人工智能,它还不具备智...

2021-11-05 00:23:07 1399

原创 YARN的工作机制

1.客户端向ResourceManager提交一个任务。2.ResourceManager让一个NodeManager启动container运行ApplicationMaster。3.AM向RM申请足够的container。4.AM通知NM开启container。5.各个container向AM汇报进度。6.全部完成后AM向RM注销任务。...

2021-11-03 00:54:18 55

原创 HDFS的block和切片(split)的区别

1.split是MapReduce里的概念,而block是hdfs中切块的大小。2.block是数据节点储存数据的一个个单位,split是把block切分而成的虚拟定义。3.block是真实的,物理上的切片;spilt是虚拟的。

2021-11-03 00:20:24 63

原创 节点距离计算

1.同一节点:距离为0。2.同一机架的不同节点:距离为2。3.同一集群的不同机架:距离为4。4.同一祖先的不同集群:距离为6。

2021-11-03 00:10:43 50

原创 HDFS读数据流

HDFS读数据流:1.客户端通过分布式文件系统的Open()函数读取数据的位置。2.客户端文件系统数据输出流的Read()读取数据。

2021-11-02 23:22:39 42

原创 HDFS写数据流

HDFS写数据流:1.客户端通过调用,分布式文件系统对象中的Create()创建一个文件,分布式文件系统通过PRC调用的NN中的文件系统命名空间创建一个新文件。2.NN会验证客户端的权限和文件存不存在于文件系统中。3.验证通过后会创建一个新的文件记录,并返回一个文件系统数据输出流(用来写数据)。4.客户端通过文件系统数据输出流的Write()函数,写入数据。5.DFSDateOutputStream会将文件分成一个个数据块。6.数据块以次存储进几个(默认3个)数据节点。7....

2021-11-02 22:15:58 47

原创 HDFS写读数据流(旧版)

1.HDFS写数据流:1.1 客户端向namenode发送请求。1.2 namenode检查权限和文件是否重复。验证通过namenode就会创建一个新的1.3

2021-10-26 21:44:11 806

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除