- 博客(7)
- 收藏
- 关注
原创 数据挖掘,机器学习,深度学习,统计学
1.数据挖掘:从庞大的大数据中找到有价值的数据。通过分析每个数据,找到其规律。主要步骤为 数据准备,规律寻找,规律展示。(1.数据准备:整合需要用到的数据集。2.规律寻 找:寻找数据集的规律。3.规律展示:用可视化的方法把规则展示出来。)2.机器学习:主要应用对象为人工智能,它的最终目的是让机器具备人类一样的智慧,现阶段还只 能做的让机器拥有智能(例如人工智能,它还不具备智...
2021-11-05 00:23:07 1432
原创 YARN的工作机制
1.客户端向ResourceManager提交一个任务。2.ResourceManager让一个NodeManager启动container运行ApplicationMaster。3.AM向RM申请足够的container。4.AM通知NM开启container。5.各个container向AM汇报进度。6.全部完成后AM向RM注销任务。...
2021-11-03 00:54:18 82
原创 HDFS的block和切片(split)的区别
1.split是MapReduce里的概念,而block是hdfs中切块的大小。2.block是数据节点储存数据的一个个单位,split是把block切分而成的虚拟定义。3.block是真实的,物理上的切片;spilt是虚拟的。
2021-11-03 00:20:24 89
原创 HDFS读数据流
HDFS读数据流:1.客户端通过分布式文件系统的Open()函数读取数据的位置。2.客户端文件系统数据输出流的Read()读取数据。
2021-11-02 23:22:39 49
原创 HDFS写数据流
HDFS写数据流:1.客户端通过调用,分布式文件系统对象中的Create()创建一个文件,分布式文件系统通过PRC调用的NN中的文件系统命名空间创建一个新文件。2.NN会验证客户端的权限和文件存不存在于文件系统中。3.验证通过后会创建一个新的文件记录,并返回一个文件系统数据输出流(用来写数据)。4.客户端通过文件系统数据输出流的Write()函数,写入数据。5.DFSDateOutputStream会将文件分成一个个数据块。6.数据块以次存储进几个(默认3个)数据节点。7....
2021-11-02 22:15:58 56
原创 HDFS写读数据流(旧版)
1.HDFS写数据流:1.1 客户端向namenode发送请求。1.2 namenode检查权限和文件是否重复。验证通过namenode就会创建一个新的1.3
2021-10-26 21:44:11 811
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人