潇月华-CSDN博客

原创数据挖掘、机器学习、深度学习和统计学

简单概念及关系数据挖掘就是试图从海量数据中找出有用的知识。数据挖掘的一个重要方法，是机器学习，即通过程序积累经验，但机器学习是一门学科，并不从属于数据挖掘，二者相辅相成；而速度学习是机器学习的一个子集，就是用复杂、庞大的神经网络进行机器学习。统计学与机器学习是在研究模型与算法，统计学基于数学，而机器学习基于机器自主学习，是数学、统计学、计算机科学的交融结合。数据挖掘顾名思义就是从海量数据中“挖掘”影藏信息，这里的数据是“大量的，不完全的，有噪声的，模糊的，随机的实际应用数据",信息指的是”.

2021-11-04 13:39:22 679

原创节点距离计算

2021-10-30 19:50:14 139

原创 YARN工作机制

YARN是资源调度平台，相当于一个分布式的操作系统平台。MapReduce等运算程序运行于此系统之上。工作原理如下： 1)在客户端，用户会向资源管理器请求执行运算或执行任务。 2）在NameNode会有资源管理器统筹管理运算的请求。 3）在其他的DataNode会有节点管理器负责运行以及监督每一个任务，并且向资源管理器汇报任务状况。 ...

2021-10-29 18:34:22 111

原创 HDFS的block和MapReduce split区别

1、文件可分割才会考虑HDFS的block大小；文件不可分割时，一个文件一个split。 2、block的块是物理划分，split切片是逻辑划分。

2021-10-29 17:35:29 599

原创 HDFS读数据流程

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。 2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。 3)DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校检）。 4）客户端以Packet为单位接收，先在本地缓存，然后去写入目标文件。 ...

2021-10-29 17:05:42 92

原创 HDFS写数据流程

客户端在HDFS中要经过以下过程： 1）客户端通过Distributed file System模块（分布式文件系统）向NameNode请求上传文件（通过RPC调用的NameNode中的文件系统命名空间创建一个新文件），NameNode确保请求客户端拥有创建文件的权限，检查目标文件是否存在。 2）当所有验证通过时，NameNode创建一个新文件的记录。 3）NameNode返回是否可以上传。 4）客户端请求第一个Block上传到哪几个DataNode服务器上。 5）NameNode返回3个Data

2021-10-26 21:03:56 421

sinat_63518426的博客

原创数据挖掘、机器学习、深度学习和统计学

原创节点距离计算

原创 YARN工作机制

原创 HDFS的block和MapReduce split区别

原创 HDFS读数据流程

原创 HDFS写数据流程

空空如也

空空如也

原创 数据挖掘、机器学习、深度学习和统计学

原创 节点距离计算

原创 YARN工作机制

原创 HDFS的block和MapReduce split区别

原创 HDFS读数据流程

原创 HDFS写数据流程

空空如也

空空如也

原创数据挖掘、机器学习、深度学习和统计学

原创节点距离计算