Hadoop相关
文章平均质量分 79
HDFS,streaming。。。
qq_37676008
这个作者很懒,什么都没留下…
展开
-
Hadoop-MapReduce
1.MapReduce简介Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的思想就是“分而治之”。(1)Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义:一是数据或计算的规模相对原任务要大大缩小;二是就近计算原则,即任务会分配到存放着所需数据的节点上进行计算;三是这些小任务可以并原创 2021-05-26 20:03:07 · 191 阅读 · 0 评论 -
Hadoop-HDFS
1.HDFS简介 HDFS是基于 流数据 访问模式的 分布式文件系统 ,其设计建立在 “一次写入、多次读取” 的基础上,提供高吞吐量、高容错性的数据访问,能很好地解决海量数据的存储问题。 其中,流数据 是指数千个数据源 持续生成 的数据,可以理解为随时间延续而 无限增长 的动态数据集合。通俗点说,如果把数据比如成一个水库,那么流进去的水,就是流数据(就像我们听的音乐,属于音乐流;而看到的文字、图片这些较为固定的,一次性下载的,形成不了流)。2.优缺点1.优点 高容错性。提供了容错和原创 2021-05-26 17:01:55 · 79 阅读 · 1 评论 -
Hadoop架构
1.Hadoop的目标随着数据量的增大,以往单机的存储计算模式无法满足。Hadoop就是存储海量数据和分析海量数据的工具。2.Hadoop的组成1.HDFS:一个高可靠、高吞吐量的分布式文件系统2.MapReduce:一个分布式的离线并行计算框架3.YARN:作业调度与集群资源管理的框架4.Common:支持其他模块的工具模块其中Hadoop的核心组成是HDFS与MapReduce两部分: 1.HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服原创 2021-05-26 16:34:40 · 93 阅读 · 0 评论