自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学,机器学习,深度学习,数据挖掘的联系

1.数据挖掘(Data Mining)顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话”,支持决策。所以,数据挖掘更偏向应用。2.机器学习(Machine Learning)是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。3.深度学习

2021-11-04 22:44:53 600

原创 YARN的工作机制

YARN(资源管理框架): 新一代Hadoop资源管理器,用户可以运行和管理同一个物理集群机上的多种作业。它可以对集群中的各类资源进行抽象,并按照一定的策略将资源分配给应用程序或服务。步骤说明: 1.在客户端,用户会向资源管理器请求执行运算或执行任务。 2.资源管理器收到请求后根据资源挑选一个合适的NN,统筹管理运算的请求。 3.在其他DataNode会有节点管理负责运行以及监督每一个任务,并且向资源管理器汇报任务状况。...

2021-11-02 19:42:00 99

原创 HDFS的block和切片(split)的区别

说明:1.Block:当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。2.Split:split是逻辑意义上的split。 通常在 M/R 程序或者其他数据处理技术上用到。根据你处理的数据量的情况,split size是允许用户自定义的。3.split是MapReduce里的概念(切片),而block是hdfs中切块的大小。4.split是逻辑切片,block是物理切块。5.split的大小..

2021-11-01 22:10:07 301

原创 节点距离计算

说明: 节点距离=两个节点到达最近的共同祖先的距离总和。 1.在同一节点上,它们之间的距离为0。 2.在同一机架上的不同节点上,两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2。 3.在同一集群的不同机架上的节点,要到这个机架(1),然后到达集群(2),所以两个节点的距离为2+2=4。 4.在同一数据中心的不同集群上的节点,一个节点到数据中心的距离是3,两个节点的距离就是3+3=6。...

2021-11-01 21:48:04 1141

原创 HDFS读数据流程

步骤文字说明: 1.客户端通过调用分布式文件系统(Distributed File System)中的函数来读取所需数据。 2.分布式文件系统(Distributed File System)通过(Namenode)名称节点来请求文件块所在位置,之后(Namenode)名称节点返回文件块所在位置的元数据(注并不是全部返回)。 3.完成位置访问,HDFS客户端通过(FSDataInputStream)文件系统数据输出流来读取文件。 4.HDFS客户端通过(FS...

2021-10-29 22:01:30 734

原创 HDFS写数据流程

步骤文字说明1.客户端通过分布式文件系统(调用Create)请求创建一个新文件,名称节点(NN)通过验证请求的客户端,创建一个新文件。 如创建成功,则分布式文件系统返回一个文件系统数据输出流,交给请求客户端写数据。 如创建失败,显示IOException异常。2.客户端调用Write函数,写入数据。3.当客户端写入数据,文件系统数据输出流会将文件分割成一个个文件包放在数据队列中,数据队列会将这些小文件包放入数据流中,NN将把这些文件存放在合适的数据节点中。4.文...

2021-10-26 22:31:12 429

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除