一、Apache Hadoop入门
1.1、Hadoop介绍
狭义上:hadoop指的是Apache一款java开源软件,是一个大数据分析处理平台。
-
Hadoop HDFS:分布式文件系统。 解决了海量数据存储问题。
Hadoop Distributed File System (HDFS™)
- Hadoop MapReduce:分布式计算框架。解决海量数据计算问题。
parallel processing of large data sets.
- Hadoop YARN:集群资源管理和任务调度。
A framework for job scheduling and cluster resource management. #资源指的是和程序运行相关的硬件资源 cpu ram内存 #任务调度 集群资源繁忙的时候 如何分配资源给各个程序 调度 调度的关键是策略:先来后到 权重
- 广义上:Hadoop指的是hadoop生态圈。
提供了大数据的几乎所有软件。 采集、存储、导入、分析、挖掘、可视化、管理...
1.2、Hadoop起源发展
Hadoop之父--Doug Cutting 卡大爷
起源项目Apache Nutch。 致力于构建一个全网搜索引擎。
1、爬取互联网网页 --->存储在哪里? 海量数据存储问题
2、基于网页创建倒排索引。--->如何计算? 海量数据计算问题
Google也在做搜索,也遇到这些问题,内部解决了。
google不想开源软件,但是又憋的难受,怕被人不知道,写论文发表。
前后写了3篇论文(谷歌是使用c实现的)。
谷歌分布式文件系统(GFS)------>HDFS
谷歌版MapReduce 系统------>Hadoop MapReduce
bigtable---->HBase
基于论文的影响 Nutch团队实现了相应的java版本开源组件。
Nutch团队把HDFS和MapReduce抽取独立成为单独软件在2008年贡献给了Apache。开源。
Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫hadoop,他灵光一闪,就把这技术命名为 Hadoop,而且还用了黄色小象作为标示 Logo。
1.3、Hadoop特性优点
分布式、扩容能力
不再注重单机能力 看中的是集群的整体能力。
动态扩容、缩容。
成本低
在集群下 单机成本很低 可以是普通服务器组成集群
意味着大数据处理不一定需要超级计算机。
高效率 并发能力
可靠性
通用性
#技术是相同的 业务不相同的
#hadoop精准区分技术和业务。做什么?(what need to do)---->业务问题(20%)
怎么做?(how to do)----->技术问题(80%)Hadoop把技术实现了 用户负责业务问题。
原来大数据这么简单 可以这么玩。