【大数据】简介：大数据生态 Hadoop

最新推荐文章于 2024-07-17 17:53:42 发布

流辉fglow

最新推荐文章于 2024-07-17 17:53:42 发布

阅读量678

点赞数 27

分类专栏：大数据文章标签：大数据 hadoop 分布式学习

本文链接：https://blog.csdn.net/flowglow/article/details/136502561

版权

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文讲述了Hadoop的起源，包括其思想来源Google的论文，Hadoop之父DougCutting的贡献，以及Hadoop在Apache基金会的发展历程。重点介绍了ApacheHadoop项目及其相关组件如HDFS、MapReduce、YARN，以及Cloudera的CDH集成套件。企业常用的大数据技术如HBase、Spark和ZooKeeper也在文中提及，强调了大数据生态系统的集成和关键学习点。

摘要由CSDN通过智能技术生成

说明：- 表示繁写/全称

Hadoop之父

Hadoop 之父 Doug Cutting
请添加图片描述

Hadoop [hædu:p]
Cutting 儿子对玩具小象的昵称 Hadoop

Cutting很厉害，尤其在搜索引擎 Lucene
爬虫框架 Nutch
数据序列化框架 Avro
都是Apache项目的

Hadoop 时间简史

Google 三篇论文

《The Google File System 》 2003 简称 GFS 谷歌分布式文件系统
《MapReduce: Simplified Data Processing on Large Clusters》 2004 分布式计算框架
《Bigtable: A Distributed Storage System for Structured Data》 2006 分布式存储层（以结构化表来储存数据）

前两篇（分布式文件系统，分布式计算框架）是 Hadoop 的思想之源，用 Java 实现了 Hadoop

Hadoop 由 Apache Software Foundation 于 2005 年秋天作为 Lucene的子项目Nutch的一部分正式引入（技术相当成熟了）

2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中，更名为 HDFS - Hadoop的分布式文件系统（- 表示繁写/全称）

Cloudera公司在2008年开始提供基于Hadoop的软件和服务
在大数据领域非常有名，尤其在"基建"

Apache Hadoop 项目

关键词：项目

hadoop.apache.org
Apache 阿帕奇基金会，能够出现在域名前的项目都是：顶级项目，经过生产验证的
2016年10月 Hadoop-2.6.5
2017年12月 Hadoop-3.0.0

The project includes these modules ：Hadoop 项目模块
前三的 1.x 就有了

Hadoop Common 核心工具
Hadoop Distributed File System（HDFS）分布式存储
Hadoop MapReduce 分布式计算
2.x 才有
- Hadoop YARN 分布式资源管理

Other Hadoop-related project at Apache ：Hadoop 相关

HBase
- 来自于 Bigtable 论文
Hlve
- 必须要会的，企业更多要解决的是数据加工的事情
- 大数据仓库
- 提供了 SQL 入口的写法，数仓数据管理方式
Spark
- MapRduce 已经是一个分布式计算框架了，但现在用的场景已经很少了
- Spark 是它的 10倍
  曾经 Hlve 底层会把 SQL 转为 MapReduce ，现在渐渐放弃了，转而用 Spark
ZooKeeper 分布式协调服务，高可用的
- 大数据的东西，都是集群的、分布式的、多节点，如果没有一个可靠的协调者，就像多线程一样跑起来很乱，根本不可预期的

大数据生态圈

也叫：Hadoop生态圈

以上讲的是阿帕奇基金会的
以下讲的是 Cloudera公司：http://www.cloudera.com/

请添加图片描述

CDH - Cloudera’s Distribution Including Apache Hadoop
CDH 包含了大数据生态圈所有的技术（围绕Hadoop的）
CDH is the most complete,tested, and popular distribution of Apache Hadoop and related projects
hadoop-2.6.0+cdh5.16.1
hbase-1.2.0+cdh5.16.1
hive-1.1.0+cdh5.16.1
spark-1.6.0+cdh5.16.1
官方文档：Cloudera Product Documentation

企业用得最多的还是 5.16.x 的，整合的大数据生态圈hadoop技术：版本是相对比较老，但相对比较可靠稳定的，企业比较放心 2.x 版本的（企业：不能”脑袋捆到裤腰带上“）
所以我选择了 Hadoop-2.6.5

6.0.x 整合的就是 3.x 版本的