![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop生态
文章平均质量分 67
数据咩
一只计算机专业,从业python,但是在干大数据的羊
展开
-
Hadoop深入理解之Yarn
本文参考http://jira.mumway.com/browse/DATA-136?filter=-1 一 介绍 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。 二 优缺点 1.优点:与其他用户程序完全解耦,YARN 上可以运行各种类型的分布式运算程序。 资源管理和作业控制分离,减小JobTracker压...转载 2021-07-02 15:46:10 · 425 阅读 · 0 评论 -
Hadoop深入理解之HDFS
一 HDFS介绍 HDFS(Hadoop Distributed File System)分布式文件储存系统,用于存储文件,通过目录树定位文件,适合一次性写入,多次读出且不支持修改操作也不适用于删除操作所以适合用来做过程性数据,历史数据存储以供数据分析等。所谓分布式既可以将文件存储到不同服务器上。 二 HDFS优缺点 优点:1.高容错,数据自动保存多个副本,某一个副本丢失后可以自动恢复。 2.大规模数据处理,能够处理数据规模达到GB、T...原创 2021-06-29 16:09:26 · 96 阅读 · 0 评论 -
Hadoop深入理解之MapReduce
一 定义及由来 MapReduce是一种计算模型也可以说是一种分布式运算程序的编程框架,它可以将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在一起来计算最终的结果。简而言之,Hadoop Mapreduce是一个易于编程并且能在大型集群(上千节点)快速地并行得处理大量数据的软件框架,以可靠,容错的方式部署在商用机器上。 MPI等并行计算方法缺少统一的计算框架支持,程序员需要考虑数据存储、划分、分发、结果收集、错误恢复等诸多细...原创 2021-07-01 18:23:19 · 359 阅读 · 0 评论 -
Hadoop深入理解之优势及组成
一 优势 Hadoop作为大数据概念中重要的分布式框架其优势总结出来大概有四点: 1.高可靠 Hadoop底层维护了多个数据副本,这样使得其本身某个节点出现故障无论是计算还是储存都不会导致数据丢失。 2.高扩展 分布式架构,在集群上分配任务数据,随时可以扩展几百上千个节点。 3.高效率 MapReduce在计算过程中是并行处理的,大大加快了数据处理的速度。 4.高容错 对自身失败的任务可实现自动重新分配。 二 组成 ...原创 2021-06-28 18:03:19 · 523 阅读 · 0 评论 -
Hadoop生态之hive
其本质是将 SQL 转换为 MapReduce/Spark 的任务进行运算,底层由 HDFS 来提供数据的存储,说白了 hive 可以理解为一个将 SQL 转换为 MapReduce/Spark 的任务的工具。原创 2023-09-04 21:14:39 · 753 阅读 · 0 评论