Hadoop搭建笔记（16）

最新推荐文章于 2024-06-06 09:11:49 发布

Demoatnes

最新推荐文章于 2024-06-06 09:11:49 发布

阅读量202

点赞数

文章标签： Hadoop搭建

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZXQjinhu/article/details/80426332

版权

本文是我学习Hadoop搭建过程中的各种笔记，内容来自于各种公开的教程，起点非常低，从Linux基础开始，直至在PC上搭建Hadoop成功，是真正的从零开始。

感谢过程中帮助我的各位认识的和不认识的老师。

29、Hadoop的简单介绍：

Apache Hadoop 官网地址：http://hadoop.apache.org

1.Hadoop是什么？

Apache Hadoop平台是一个可靠的、可扩展的、可分布式计算的开源软件。

平台是一个框架，允许使用简单的编程模型。

在计算机集群（集群：多台机子链接在一起）中对大型数据集进行分布式处理。

该平台被设计成可以从单个服务器扩展到数千台服务器，每个服务器都可以提供本地计算和存储

该平台也被设计成可检测和处理应用层的故障（即高可靠、高容错）高可用服务是基于计算机集群的，集群的每一台机子都可能失败，Hadoop本身就被设计成能够探测和处理失败，而不是应用硬件来支持高可用的

2.Hadoop产生背景？

数据时代，Googel

Googel：

GES:数据存储

MAP-REDUCE:数据分析

BIG-TABLE：非规则的数据存储

只提供学术文章，闭源→Hadoop发展

Googel发展遇到的问题：

大量网页怎么存储（gfs）? [gfs：谷歌的文件系统]

搜索算法？

Page-Rank（网页排名）计算问题？

3.Hadoop发展历史？

（谷歌闭源，海量数据处理）

Apache Lucene : 开源的高性能全文检索工具

Apache Nutch：开源的Web搜索引擎

Google三大论文: GES/ MapReduce/ BigTable

Apache Hadoop: 大规模数据处理

Doug Cutting开创的开源软件，用java书写代码

从Lucene 到 nutch ,从nutch 到Hadoop

2003—2004年Google公布了部分 GES和MapReduce思想细节，以此为基础，Doug Cutting等人实现了DFS和MapReduce机制，使Nutch性能飙升

4.Hadoop的应用？

核心思想：再好一台的机子，也抵不过成千上万台机子在一起

pc<work station（工作站）<小型机<巨型机<成千上万台机子的集群

Hadoop1.0 、2.0 生态系统（3.0 是α版本，用于测试阶段，不能用于生产）：

Hadoop1.0：MapReduce 即处理数据又管理资源

Hadoop2.0：YARN全局资源的管理者以及任务的调度者

YARN：全局资源管理

HDFS：可以想象成电脑的磁盘，只不过它是基于磁盘之上的系统

MR：批量处理

PIG：数据流

大数据处理业务应用：

银行，运营商流量，收视率，播放器推荐，金融，交通摄像头，工业传感器……

Apache Hadoop版本演化：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop搭建笔记（16）

本文是我学习Hadoop搭建过程中的各种笔记，内容来自于各种公开的教程，起点非常低，从Linux基础开始，直至在PC上搭建Hadoop成功，是真正的从零开始。感谢过程中帮助我的各位认识的和不认识的老师。29、Hadoop的简单介绍：Apache Hadoop官网地址：http://hadoop.apache.org1.Hadoop是什么？Apache Hadoop平台是一个可靠的、可扩展的、可...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Demoatnes 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。