张晓伟----CSDN博客

原创 blog统计学机器学习数据挖掘深度学习之间关系

数据挖掘和统计学都是进行数据发现的方法，数据挖掘用的是工具应用，统计学比较理论方法；数据挖掘是目的，机器学习是实现数据挖掘的手段，机器学习是实现人工智能的方法，深度学习是实现机器学习的技术；深度学习是机器学习现在比较火的一个方向，其本身是神经网络算法的衍生，在图像、语音等富媒体的分类和识别上取得了非常好的效果。机器学=统计学+计算机； ...

2021-11-05 20:54:32 1643

原创 HDFS的block和切片的区别

1.split只是一个概念，split是一个逻辑切片，block是实质的大小，真真切切说的数据块的大小。他俩大小差不多。 2.为了减少Mapduce运行时网络之间的差距，block和split的大小差不多。

2021-10-29 21:55:49 77

原创 YARN工作机制

1.客户端向RM提交作业。 2.RM从NM里选个容器用来运行AM。 3.AM向RM注册自己。 4.RM在向NM申请几个container容器来运行任务task。 5.container先初始化，AM通知NM运行container并开启。 6.container实时汇报自己的进程和状态。 7.完事了AM向RM申请注销自己。 ...

2021-10-29 21:32:25 58