Hadoop入门

Java小生不才

已于 2022-06-17 16:39:27 修改

阅读量248

点赞数

分类专栏：大数据文章标签： hadoop big data mapreduce

于 2022-06-16 16:26:24 首次发布

本文链接：https://blog.csdn.net/qq_41596346/article/details/125317333

版权

大数据专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.什么是Hadoop

1.1.狭义上的Hadoop

狭义上的Hadoop是Hadoop软件，它是一个由Apache基金会所开发的分布式系统基础架构( 开源，java语言开发)
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.(Apache™ Hadoop®项目开发用于可靠、可扩展、分布式计算的开源软件。)
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.(Apache Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它的设计目的是从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。库本身的设计目的不是依赖硬件来提供高可用性，而是在应用程序层检测和处理故障，从而在计算机集群上提供高可用性服务，每个计算机集群都可能发生故障。)详情请参考 Hadoop官网添加链接描述

1.2.广义上的Hadoop

广义上的Hadoop是 Hadoop生态系统
在这里插入图片描述

2.Hadoop发展简史

2.1.Hadoop之父

Hadoop创始人 Doug Cutting(道格卡丁)
在这里插入图片描述

2.2.简史

Hadoop最早起源于 lucene下的Nutch。
Nutch的设计目标是构建一个大型的全网搜索引擎（Google的全文搜索），包括网页抓取、索引、查询等功能但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题

谷歌3大论文

The Google file system 谷歌分布式文件系统GFS，可用于处理海量网页的存储
MapReduce:Simplified Data Processing on Large Clusters 谷歌分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题
Bigtable: A Distributed Storage System for Structured Data 谷歌分布式的结构化数据存储系统Bigtable，用来处理海量结构化数据
谷歌的这3篇论文给了Nutch团队极大的灵感，可以说是Hadoop的思想之源。
2006年开发者将其从Nutch项目中剥离，命名Hadoop(logo与命名源自Doug Cutting儿子的毛绒玩具)
在这里插入图片描述
2008年Hadoop成为Apache顶级项目