Apache Hadoop

最新推荐文章于 2024-05-07 23:22:23 发布

小布先生~噫嘘唏

最新推荐文章于 2024-05-07 23:22:23 发布

阅读量1.5k

点赞数 4

分类专栏： hadoop知识点文章标签： hadoop apache 大数据

本文链接：https://blog.csdn.net/Clittle225/article/details/130494370

版权

14 篇文章 3 订阅

订阅专栏

一、Apache Hadoop入门

狭义上：hadoop指的是Apache一款java开源软件，是一个大数据分析处理平台。

Hadoop HDFS：分布式文件系统。解决了海量数据存储问题。
```
 Hadoop Distributed File System (HDFS™)
```
Hadoop MapReduce：分布式计算框架。解决海量数据计算问题。
```
parallel processing of large data sets.
```

Hadoop YARN：集群资源管理和任务调度。

A framework for job scheduling and cluster resource management.

#资源指的是和程序运行相关的硬件资源
cpu ram内存

#任务调度
集群资源繁忙的时候 如何分配资源给各个程序  调度
调度的关键是策略：先来后到  权重

广义上：Hadoop指的是hadoop生态圈。

提供了大数据的几乎所有软件。
采集、存储、导入、分析、挖掘、可视化、管理...

Hadoop之父--Doug Cutting 卡大爷

起源项目Apache Nutch。致力于构建一个全网搜索引擎。

1、爬取互联网网页 --->存储在哪里？ 海量数据存储问题

2、基于网页创建倒排索引。--->如何计算？  海量数据计算问题

Google也在做搜索，也遇到这些问题，内部解决了。

google不想开源软件，但是又憋的难受，怕被人不知道，写论文发表。

前后写了3篇论文（谷歌是使用c实现的）。

                谷歌分布式文件系统（GFS）------>HDFS
                谷歌版MapReduce 系统------>Hadoop MapReduce
                bigtable---->HBase

基于论文的影响 Nutch团队实现了相应的java版本开源组件。

Nutch团队把HDFS和MapReduce抽取独立成为单独软件在2008年贡献给了Apache。开源。

Doug Cutting 看到他儿子在牙牙学语时，抱着黄色小象，亲昵的叫hadoop，他灵光一闪，就把这技术命名为 Hadoop，而且还用了黄色小象作为标示 Logo。

分布式、扩容能力

不再注重单机能力看中的是集群的整体能力。
动态扩容、缩容。

成本低

在集群下单机成本很低可以是普通服务器组成集群
意味着大数据处理不一定需要超级计算机。

高效率并发能力

可靠性

通用性

#技术是相同的业务不相同的
#hadoop精准区分技术和业务。

做什么?(what need to do)---->业务问题（20%）
怎么做?(how to do)----->技术问题（80%）

Hadoop把技术实现了用户负责业务问题。

原来大数据这么简单可以这么玩。

关注