- 博客(7)
- 收藏
- 关注
原创 blog统计学机器学习数据挖掘深度学习之间关系
数据挖掘和统计学都是进行数据发现的方法,数据挖掘用的是工具应用,统计学比较理论方法;数据挖掘是目的,机器学习是实现数据挖掘的手段,机器学习是实现人工智能的方法,深度学习是实现机器学习的技术;深度学习是机器学习现在比较火的一个方向,其本身是神经网络算法的衍生,在图像、语音等富媒体的分类和识别上取得了非常好的效果。 机器学=统计学+计算机; ...
2021-11-05 20:54:32 1643
原创 HDFS的block和切片的区别
1.split只是一个概念,split是一个逻辑切片,block是实质的大小,真真切切说的数据块的大小。他俩大小差不多。 2.为了减少Mapduce运行时网络之间的差距,block和split的大小差不多。
2021-10-29 21:55:49 77
原创 YARN工作机制
1.客户端向RM提交作业。 2.RM从NM里选个容器用来运行AM。 3.AM向RM注册自己。 4.RM在向NM申请几个container容器来运行任务task。 5.container先初始化,AM通知NM运行container并开启。 6.container实时汇报自己的进程和状态。 7.完事了AM向RM申请注销自己。 ...
2021-10-29 21:32:25 58
原创 节点距离计算
1.同一节点上,他们距离是0。 2.同一机架不同节点之间距离是1,所以1+1=2。 3.同一集群不同机架的节点,不同节点不同机架的距离是1和2。所以距离是4. 4.同一个数据中心不同集群的节点,节点到数据中心距离是3,所以距离是6. ...
2021-10-29 20:31:59 113
原创 读取HDFS
1.客户端通过分布式系统打开需要的文件。 2.然后名称节点获取这个文件有啥数据块,哪个数据块放在哪个节点。 3.然后客户端直接从节点上读取数据。 4.最后关闭这个数据流。
2021-10-29 19:10:39 51
原创 HDFS写数据
1.客户端通知名称节点,写文件。 2.查看客户端是否有权限,没有同样文件后,名称节点创建新文件并记录。 3.将文件分成同样大小的数据块,并用数据流的方式往数据块写数据。 4.把数据全部写完之后数据节点向客户端发出确认,客户端再向名称节点发出信息,名称节点储存信息并结束。 ...
2021-10-29 18:56:42 88
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人