![](https://img-blog.csdnimg.cn/20190927151043371.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据组件
文章平均质量分 93
大数据组件学习笔记
weixin_43177696
这个作者很懒,什么都没留下…
展开
-
MapReduce专题
1. 概念 1.1 设计构思 MapReduce是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发布在Hadoop集群上;核心思想是分而治之,即把复杂的任务分解为若干个“简单的任务”来并行处理,最后对这些小任务的结果进行全局汇总,适合并行计算相互间不具有计算依赖关系的大数据,但不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算 1.2 抽象模型:Map和Reduce MapReduce定义了如下的Map和Reduce两个抽象的编程接口原创 2022-04-23 13:27:32 · 1640 阅读 · 0 评论 -
HDFS专题
1. 概念 1.1 背景 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对他进行分区并存储到若干计算机上,其中管理网络中跨多台计算机存储的文件系统称为分布式文件系统,在Hadoop中称为HDFS,即Hadoop Distributed Filesystem。 1.2 写数据流程 Client发起文件上传请求,通过**RPC(远程过程调用协议)**与NameNode建立通讯,NameNode检查目标文件、父目录是否已存在,返回是否可以上传; Client请求第一个block该传输到哪些Dat原创 2022-04-23 12:41:58 · 743 阅读 · 0 评论