自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学,机器学习,数据挖掘,深度学习的关系

一,统计学 统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等,应用范围十分广泛。 二、数据挖掘 顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话...

2021-11-02 22:45:17 419

原创 YARN工作机制

YARN: yet another resource negotiator,另一种资源协调者。 是一个通用的资源管理系统,可为上层提供统一的资源管理和调度。 它的引入为集群在利用率,资源统一管理和数据共享等方面带来了巨大的好处。 YARN的功能 资源管理和程序调度。 YARN工作时 作业提交阶段 作业初始化阶段 任务分配阶段 任务运行阶段 作业完成阶段 如图所示 15.框架更新计算的进度和状态。 以上就是YARN的工作机制了。 ...

2021-11-02 22:03:21 112

原创 HDFS读数据流程

hdfs采用的文件读取模式“一个文件一旦创建,写入,关闭之后不能修改”,确保了数据的一致性,并能够实现数据访问高吞吐量。 读取数据流程详解: 客户端给nemenode发起下载文件请求。 namenode返回目标文件的元数据。 ...

2021-10-30 20:45:06 107

原创 HDFS中block和切片的区别

数据块(block) 是HDFS物理数据块,一个大文件丢到HDFS,会被HDFS切分成指定大小的数据块。 数据切片 逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据

2021-10-30 20:07:57 94

原创 节点距离计算

节点距离:两个节点到达最近的共同祖先的距离总和 如图所示,假设有数据中心d1机架r1节点n1 该节点我们可以d1/r1/n1以此标记。利用这种标记列出四种距离描述。 1.同一个机架同一个节点 distance(d1/r1/n0,d1/r1/n0)=0(图中黄色部分) 2.同一个机架上的不同节点 distance(d1/r1/n2,d1/r1/n3)=2 (图中粉色部分) 3.同一个集群不同机架上的节点 distance(d1/r1/n1,d1/r2/n2)=2+2=4 (图..

2021-10-30 19:40:40 198

原创 HDFS写数据流程

跟namenode通信请求上传文件,namenode检查目标文件是否已经存在,父目录是否已经存在 namenode返回可以上传 client先对文件进行切分,请求第一个block传输到datanode服务器上 nemenode返回三个datanode服务器dn1 dn2 dn3 client请求3台datanode(按网络拓扑上的就近原则,一样的话随机) 调用rpc建立pipeline,dn收到请求会继续调用dn2 dn2调用dn3 然后逐步返回客户端 ..

2021-10-26 21:41:48 852

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除