Hadoop的产生背景

最新推荐文章于 2024-04-22 20:08:50 发布

~流星

最新推荐文章于 2024-04-22 20:08:50 发布

阅读量3.8k

点赞数 1

分类专栏：大数据文章标签： Hadoop的产生背景 Hadoop的整体介绍

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43306844/article/details/86765068

版权

Hadoop的产生HADOOP最早起源于Nutch。 Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年谷歌发表了三篇论文：GFS——Google FileSystem 描述数据存储的思想，解决了海量数据如何存储的问题。MapReduce——...

摘要由CSDN通过智能技术生成

Hadoop的产生

HADOOP最早起源于Nutch。
Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，
但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2003年谷歌发表了三篇论文：

GFS——Google FileSystem 描述数据存储的思想，解决了海量数据如何存储的问题。

MapReduce——描述分布式运算系统，解决了海量数据如何计算的问题。

bigtable——快速查询的google的分布式数据库，解决了海量数据如何快速查询的问题。

Doug Cutting将Google 的三篇文章用Java重新实现。

GFS——HDFS（Hadoop Distributed File System）Hadoop的分布式文件存储系统，用于解决海量数据存储的问题。

MapReduce——MapReduce，解决海量数据分布式计算问题。

bigtable——Hbase，解决海量数据的快速查询问题。

Hadoop是什么？

Apache™Hadoop®项目是一个提供高可靠，可扩展（横向）的分布式计算的开源软件平台。

Apache Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。Hadoop本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，从而在计算机集群之上提供高可用性服务，每个计算机都可能容易出现故障。

Hadoop提供的功能：利用服务器集群，根据用户自定义业逻辑对海量数进行分布式处理。

<

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hadoop的产生背景

Hadoop的产生HADOOP最早起源于Nutch。 Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年谷歌发表了三篇论文：GFS——Google FileSystem 描述数据存储的思想，解决了海量数据如何存储的问题。MapReduce——...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。