大数据作业
大数据作业
^极致温柔#
这个作者很懒,什么都没留下…
展开
-
统计学,机器学习,深度学习,数据挖掘的关系
机器学习的目的是获得一个可反复预测的模型。机器学习只在乎结果。 统计更多是为了寻找变量之间的关系和确定关系的显著性。 机器学习基于统计的框架。 深度学习是源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。 深度学习是实现机器学习的一种方式或路径,通过空间相对关系减少参数数目以提高训练性能,让机器认知过程逐层进行,从而大幅度提升识别的准确性和效率。 数据挖掘受到很多学科领域的影响,其中机器学习和统计学影原创 2021-10-31 16:33:48 · 1109 阅读 · 0 评论 -
YARN的工作机制
YARN的工作机制 1、申请一个Application 2、Application 资源提交路径hdfs// /staging以及application_id 3、提交job运行所需资源 4、资源提交完毕,申请运行mrAppMaster 5、将用户的请求初始化成一个Task 6、领取到task任务 7、创建容器Container 8、下载job资源到本地 9、申请运行Map Task容器 10、领取到任务,创建容器 11、发送程序启动脚本 12、向RM申请2个容器,运行Reduce Task程序 13原创 2021-10-26 19:30:23 · 199 阅读 · 0 评论 -
HDFS写数据流程
HDFS写数据流程 1、客户端通知名称节点写新文件。 2、名称节点确认,客户端权限和没有相同的文件后,创建一个新的文件记录。 3、DFSDataOutputStream 将文件分成一个一个的数据块。 4、通过文件流的方式往数据节点中写数据,写数据时注意会写冗余数据。 5、冗余数据块全部写完,数据节点再向客户端发出确认。 6、客户端小明冲击点八除结束消息,并将文件的块信息储存在名称节点中。 ```mermaid ![在这里插入图片描述](https://img-blog.csdnimg.cn/2021102原创 2021-10-26 20:37:57 · 110 阅读 · 0 评论 -
HDFS读数据流程
HDFS读数据流程 1、客户端通过分布式文件系统中的open()函数读取所需数据。 2、Distributed File System 会通过RPC协议调用名称节点来确定请求文件块块所在位置。 3、客户端用FSDataInputream的Read()方法读取数据。 4、连接最近的数据节点,以数据流形式读取数据。 5、关闭连接,查找下一个最近的数据节点。 6、完成读取,关闭数据流。 ...原创 2021-10-27 15:11:39 · 95 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
HDFS的block和切片(split)的区别原创 2021-10-27 15:19:20 · 226 阅读 · 0 评论 -
节点距离计算
节点距离计算 节点距离=两个节点到达最近共同祖先的距离和原创 2021-10-27 15:28:45 · 242 阅读 · 0 评论