自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据挖掘、机器学习、深度学习和统计学

简单概念及关系数据挖掘就是试图从海量数据中找出有用的知识。数据挖掘的一个重要方法,是机器学习,即通过程序积累经验,但机器学习是一门学科,并不从属于数据挖掘,二者相辅相成;而速度学习是机器学习的一个子集,就是用复杂、庞大的神经网络进行机器学习。统计学与机器学习是在研究模型与算法,统计学基于数学,而机器学习基于机器自主学习,是数学、统计学、计算机科学的交融结合。数据挖掘顾名思义就是从海量数据中“挖掘”影藏信息,这里的数据是“大量的,不完全的,有噪声的,模糊的,随机的实际应用数据",信息指的是”.

2021-11-04 13:39:22 469

原创 节点距离计算

2021-10-30 19:50:14 81

原创 YARN工作机制

YARN是资源调度平台,相当于一个分布式的操作系统平台。MapReduce等运算程序运行于此系统之上。工作原理如下:1)在客户端,用户会向资源管理器请求执行运算或执行任务。2)在NameNode会有资源管理器统筹管理运算的请求。3)在其他的DataNode会有节点管理器负责运行以及监督每一个任务,并且向资源管理器汇报任务状况。...

2021-10-29 18:34:22 60

原创 HDFS的block和MapReduce split区别

1、文件可分割才会考虑HDFS的block大小;文件不可分割时,一个文件一个split。2、block的块是物理划分,split切片是逻辑划分。

2021-10-29 17:35:29 478

原创 HDFS读数据流程

1)客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校检)。4)客户端以Packet为单位接收,先在本地缓存,然后去写入目标文件。...

2021-10-29 17:05:42 44

原创 HDFS写数据流程

客户端在HDFS中要经过以下过程:1)客户端通过Distributed file System模块(分布式文件系统)向NameNode请求上传文件(通过RPC调用的NameNode中的文件系统命名空间创建一个新文件),NameNode确保请求客户端拥有创建文件的权限,检查目标文件是否存在。2)当所有验证通过时,NameNode创建一个新文件的记录。3)NameNode返回是否可以上传。4)客户端请求第一个Block上传到哪几个DataNode服务器上。5)NameNode返回3个Data

2021-10-26 21:03:56 361

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除