自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 blog统计学机器学习数据挖掘深度学习之间关系

数据挖掘和统计学都是进行数据发现的方法,数据挖掘用的是工具应用,统计学比较理论方法;数据挖掘是目的,机器学习是实现数据挖掘的手段,机器学习是实现人工智能的方法,深度学习是实现机器学习的技术;深度学习是机器学习现在比较火的一个方向,其本身是神经网络算法的衍生,在图像、语音等富媒体的分类和识别上取得了非常好的效果。 机器学=统计学+计算机; ...

2021-11-05 20:54:32 1643

原创 HDFS的block和切片的区别

1.split只是一个概念,split是一个逻辑切片,block是实质的大小,真真切切说的数据块的大小。他俩大小差不多。 2.为了减少Mapduce运行时网络之间的差距,block和split的大小差不多。

2021-10-29 21:55:49 77

原创 YARN工作机制

1.客户端向RM提交作业。 2.RM从NM里选个容器用来运行AM。 3.AM向RM注册自己。 4.RM在向NM申请几个container容器来运行任务task。 5.container先初始化,AM通知NM运行container并开启。 6.container实时汇报自己的进程和状态。 7.完事了AM向RM申请注销自己。 ...

2021-10-29 21:32:25 58

原创 节点距离计算

1.同一节点上,他们距离是0。 2.同一机架不同节点之间距离是1,所以1+1=2。 3.同一集群不同机架的节点,不同节点不同机架的距离是1和2。所以距离是4. 4.同一个数据中心不同集群的节点,节点到数据中心距离是3,所以距离是6. ...

2021-10-29 20:31:59 113

原创 读取HDFS

1.客户端通过分布式系统打开需要的文件。 2.然后名称节点获取这个文件有啥数据块,哪个数据块放在哪个节点。 3.然后客户端直接从节点上读取数据。 4.最后关闭这个数据流。

2021-10-29 19:10:39 51

原创 HDFS写数据

1.客户端通知名称节点,写文件。 2.查看客户端是否有权限,没有同样文件后,名称节点创建新文件并记录。 3.将文件分成同样大小的数据块,并用数据流的方式往数据块写数据。 4.把数据全部写完之后数据节点向客户端发出确认,客户端再向名称节点发出信息,名称节点储存信息并结束。 ...

2021-10-29 18:56:42 88

原创 2021-10-26

2021-10-26 20:43:15 51

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除