Hadoop概述

藤藤菜丶

于 2022-11-17 14:16:26 发布

阅读量1.4k

点赞数

分类专栏：总结分享学习 Hadoop 文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Star_SDK/article/details/127903028

版权

总结分享学习同时被 2 个专栏收录

39 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

Hadoop概述

Hadoop介绍

狭义上Hadoop值的是Apache的一款开源软件。

用java语言实现开源软件框架

允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理
Hadoop核心组件

Hadoop HDFS(分布式文件存储管理系统)：解决海量数据存储

Hadoop YARN(集群资源管理和任务调度框架)：解决资源任务调度

Hadoop MapReduce(分布式计算框架)：解决海量数据计算
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

在这里插入图片描述

Hadoop发展简史

Hadoop之父：Doug Cutting
Hadoop起源于Apache Lucene子项目：Nutch

Nutch的设计目标是构建一个大型的全网搜索引擎。

遇到瓶颈：如何解决数十亿网页的存储和索引问题。
Google 三篇论文

《The Google file system》：谷歌分布式文件系统GFS

《MapReduce: Simplified Data Processing on Large Clusters》：谷歌分布式计算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》：谷歌结构化数据存储系统

狭义上Hadoop指软件广义上Hadoop指生态圈
Hadoop之父Dong Cutting
Hadoop起源于Nutch项目
受Google三篇论文启发
2008年开源给Apache软件基金会

Hadoop特性优点

扩容能力

Hadoop是在可用的计算机集群分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计的节点中。
成本低

Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。
效率高

通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使得速度非常快。
可靠性

能自动维护数据的多份复制，并且在任务失败后能自动地重新部署计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Hadoop国外应用

Yahoo

支持广告系统

用户行为分析

支持Web搜索

反垃圾邮件系统
Facebook

存储处理数据挖掘和日志统计

构建基于Hadoop数据仓库平台（Apache Hive来自FB）
IBM

蓝云基础设施构建

商业化Hadoop发行、解决方案支持

Hadoop国内应用

百度

用户搜索表征的需求数据、阿拉丁爬虫数据存储数据分析和挖掘竞价排名
阿里巴巴

为电子商务网络平台提供地产的基础计算和存储服务交易数据、信用数据
腾讯

用户关系数据

基于Hadoop、Hive构建TDW（腾讯分布式数据仓库）
华为

对Hadoop的HA方案，以及Hase领域的深入研究

Hadoop成功的魅力–通用性

精准区分做什么和怎么做，做什么属于业务问题，怎么做属于技术问题。用户负责业务，Hadoop负责技术

Hadoop成功的魅力–简单

Hadoop发行版本

开源社区版 Apache开源社区发行也是官方发行版本

优点：更新迭代快

缺点：兼容稳定性不同
商业发行版商业公司发行基于Apache开源协议某些服务需要收费

优点：稳定兼容好
缺点：收费版本更新慢

Apache开源社区版本

开源社区
商业发行版本

Cloudera

Hortonworks

Hadoop架构变迁（1.0-2.0变迁）

Hadoop 1.0

HDFS （分布式文件存储）

MapReduce （资源管理和分布式数据处理）
Hadoop 2.0

HDFS （分布式文件存储）

MapReduce（分布式数据处理）

YARN（集群资源管理、任务调度）
Hadoop 3.0

Hadoop 3.0架构组件和Hadoop 2.0类似，3.0着重于性能优化。
- 通用
  
  精简内核、类路径隔离、shell脚本重构
- Hadoop HDFS
  
  EC纠删码、多NameNode支持
- Hadoop MapReduce
  
  任务本地化优化、内存参数自动推断
- Hadoop YARN
  
  Timeline Service V2、队列配置
  精简内核、类路径隔离、shell脚本重构
- Hadoop HDFS
  
  EC纠删码、多NameNode支持
- Hadoop MapReduce
  
  任务本地化优化、内存参数自动推断
- Hadoop YARN
  
  Timeline Service V2、队列配置

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop概述

狭义上Hadoop值的是Apache的一款开源软件。用java语言实现开源软件框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理Hadoop核心组件Hadoop HDFS(分布式文件存储管理系统)：解决海量数据存储Hadoop YARN(集群资源管理和任务调度框架)：解决资源任务调度Hadoop MapReduce(分布式计算框架)：解决海量数据计算广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。
复制链接

扫一扫

专栏目录

藤藤菜丶 CSDN认证博客专家 CSDN认证企业博客

码龄9年

44: 原创

7万+: 周排名

72万+: 总排名

25万+: 访问

: 等级

1445: 积分

103: 粉丝

126: 获赞

25: 评论

647: 收藏

私信

关注

热门文章

分类专栏

Hadoop 3篇
Spark 1篇
Kafka 1篇
总结分享学习 39篇
python 11篇
Git 1篇
Django 3篇
Flask 6篇
Mongo 1篇
Redis 1篇
XPath 1篇
Linux 2篇
算法 1篇
Go 10篇

最新评论

Python列表和元组的详细区别
weixin_40189079: 引用「结实」揭示了
Python列表和元组的详细区别
绅士1993: 类似于java的array和arrayList的区别
Python列表和元组的详细区别
Fairy683: 好详细
Python列表和元组的详细区别
亚索不会吹风: 水平之高超乎想象为什么会有如此好的python 列表文章！欢迎回访我的博客
Python列表和元组的详细区别
亚索不会吹风: 强啊为什么会有如此好python列表的文章！欢迎回访我的博客

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。