自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学,机器学习,深度学习,数据挖掘的关系

1.统计学是一门研究怎样收集,组织,分析和解释数据中的数字化信息的科学。统计学可以分为两大类:描述统计学和推断统计学。描述统计学涉及组织,累加和描绘数据中的信息。推断统计学涉及使用抽样数据来推断总体。机器学习利用统计学来开发自学习算法。数据挖掘则是在从算法得到的结果上应用统计学,来解决问题。2.机器学习专门研究计算机是怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。3.深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神

2021-11-06 21:07:43 1107

原创 YARN的工作机制

1.MR程序提交到客户端所在的节点。2.YarnRunner向ResourceManager申请一个Application。3.RM将该应用程序的资源路径返回给YarnRunner。4.该程序将运行所需资源提交到HDFS上。5.程序资源提交完毕后,申请运行mrAppMaster。6.RM将用户的请求初始化成一个Task。7.其中一个NodeManager领取到Task任务。8.该NodeManager创建容器Container,并产生MRAppmaster。9.Container从HDFS上

2021-11-04 16:40:23 75

原创 HDFS的block和切片(split)的区别

1.block是物理上的数据分割,而split是逻辑上的分割。2.如果没有特别指定,split size 就等于 HDFS 的 block size 。3.用户可以在M/R 程序中自定义split size。4.一个split 可以包含多个blocks,也可以把一个block应用多个split操作。5.有多少个split,就有多少个mapper。...

2021-11-04 15:46:54 66

原创 节点距离的计算

1.在同一节点上,它们之间的距离是02.在同一机架上的不同节点,两个节点的距离为1+1=23.在同一集群的不同机架上的节点,两个节点的距离为2+2=44.在同一数据中心的不同集群上的节点,两个节点的距离是3+3=6...

2021-11-04 15:13:15 145

原创 HDFS读数据流程

1.客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。2.挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。3.DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。4.客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。...

2021-11-04 13:19:01 43

原创 HDFS写数据流程

HDFS写数据流程:1、客户端通过调用,分布式文件系统里的Create()新建一个文件,分布式文件系统通过RPC调用的名称节点中的文件系统命名空间创建一个新文件。//系统确认客户端操作的权限,并且查看是否有相同文件。验证未通过,则为创建失败,会显示IOException异常。验证通过,则分布式文件系统会返回文件系统数据输出流 让客户端去写数据。2、客户端调用文件系统数据输出流里面的Write()函数,向对应文件写入数据。//写入数据时,分布式文件系统会将会将文件分为一个一个的数据块,放入“数据队列”里.

2021-10-28 22:18:54 323

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除