大数据导论作业
潇月华
这个作者很懒,什么都没留下…
展开
-
数据挖掘、机器学习、深度学习和统计学
简单概念及关系数据挖掘就是试图从海量数据中找出有用的知识。数据挖掘的一个重要方法,是机器学习,即通过程序积累经验,但机器学习是一门学科,并不从属于数据挖掘,二者相辅相成;而速度学习是机器学习的一个子集,就是用复杂、庞大的神经网络进行机器学习。统计学与机器学习是在研究模型与算法,统计学基于数学,而机器学习基于机器自主学习,是数学、统计学、计算机科学的交融结合。数据挖掘顾名思义就是从海量数据中“挖掘”影藏信息,这里的数据是“大量的,不完全的,有噪声的,模糊的,随机的实际应用数据",信息指的是”.原创 2021-11-04 13:39:22 · 482 阅读 · 0 评论 -
HDFS写数据流程
客户端在HDFS中要经过以下过程:1)客户端通过Distributed file System模块(分布式文件系统)向NameNode请求上传文件(通过RPC调用的NameNode中的文件系统命名空间创建一个新文件),NameNode确保请求客户端拥有创建文件的权限,检查目标文件是否存在。2)当所有验证通过时,NameNode创建一个新文件的记录。3)NameNode返回是否可以上传。4)客户端请求第一个Block上传到哪几个DataNode服务器上。5)NameNode返回3个Data原创 2021-10-26 21:03:56 · 364 阅读 · 0 评论 -
HDFS读数据流程
1)客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校检)。4)客户端以Packet为单位接收,先在本地缓存,然后去写入目标文件。...原创 2021-10-29 17:05:42 · 44 阅读 · 0 评论 -
HDFS的block和MapReduce split区别
1、文件可分割才会考虑HDFS的block大小;文件不可分割时,一个文件一个split。2、block的块是物理划分,split切片是逻辑划分。原创 2021-10-29 17:35:29 · 486 阅读 · 0 评论 -
YARN工作机制
YARN是资源调度平台,相当于一个分布式的操作系统平台。MapReduce等运算程序运行于此系统之上。工作原理如下:1)在客户端,用户会向资源管理器请求执行运算或执行任务。2)在NameNode会有资源管理器统筹管理运算的请求。3)在其他的DataNode会有节点管理器负责运行以及监督每一个任务,并且向资源管理器汇报任务状况。...原创 2021-10-29 18:34:22 · 63 阅读 · 0 评论 -
节点距离计算
原创 2021-10-30 19:50:14 · 83 阅读 · 0 评论