大数据Hadoop原理01_生态圈技术栈

最新推荐文章于 2023-09-17 21:20:46 发布

清平乐的技术博客

最新推荐文章于 2023-09-17 21:20:46 发布

阅读量359

点赞数

分类专栏：大数据运维

本文链接：https://blog.csdn.net/ZZQHELLO2018/article/details/100098252

版权

大数据运维专栏收录该内容

56 篇文章 8 订阅

订阅专栏

离线数据处理的主要工具Hive 是必须极其熟练地掌握和精通的，但Hive 背后是Hadoop 的HDFS 和M叩Reduce ，需要会MapReduce 编程么？从笔者的工作实践以及了解来看，这不是必须掌握的，但是数据开发人员必须掌握其概念、架构和工作原理，也就是说，不但要知其然，而且要知其所以然。

1.起源

Hadoop 的源头是Apache 的Nutch 项目，该项目由Doug Cutting 于2002 年8 月创建，随着2006 年1 月Doug 加盟雅虎搜索，同时基于MapReduce 和GFS 的这套东西在Nutch 的良好应用，它们于2006 年2 月被分离出来，成了一套完整而独立的软件。Doug 用自己儿子的黄色大象玩具的名字“ Hadoop ”来为此项目命名。adoop 系统进入雅虎之后，得以逐渐发展和成熟，从刚开始小打小闹的几十台机器发展到能支持上千个节点的机器，同时调度、权限控制和稳定性等工程特征也被逐步完善，业务应用也从单一的搜索扩展到数据处理、分析和挖掘等。

2.发展

正是Hadoop 开启了大数据时代的大门！而首先拥抱Hadoop 的是国内外的互联网公司。Hadoop 在诞生之初还很不完善，比如没有海量节点的成功运行案例、不稳定、有bug 、缺乏企业级特性等。

从国外的Yahoo 、Facebook 到国内的百度、阿里和腾讯，上千节点的Hadoop 集群很快被搭建并运用到网页搜索、日志分析、电子商务数据处理等每天数以百TB 甚至PB 级别的数据处理和分析中。

截至2016 年1 月28 日， Hadoop 已经诞生十周年了，在这十年间，不仅MapReduce为代表的离线批处理计算得到了极大发展和普及，纵向上来说，数据采集、ETL ，数据分析、数据可视化、数据挖掘，横向上来说流计算、内存计算、即时计算等都得到了极大的发展，相关的开源产品、框架和技术纷纷涌现并被纳入Hadoop 大数据开源社区，从底层调度和资源管理的YARN/ZooKeeper 到SQL on Hadoop 的Hive ，从分布式的NoSQL 数据库HBase 到流计算Storm 框架，从海量日志采集处理框架Flume 到海量消息分布式订阅－消费系统Kafka ，所有这些技术共同组成了一个完善的、彼此良性互动和补充的Hadoop 大数据生态系统。