Hadoop概述

Hadoop概述

Hadoop介绍

  • 狭义上Hadoop值的是Apache的一款开源软件。

    用java语言实现开源软件框架

    允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理

  • Hadoop核心组件

    Hadoop HDFS(分布式文件存储管理系统):解决海量数据存储

    Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度

    Hadoop MapReduce(分布式计算框架):解决海量数据计算

  • 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

在这里插入图片描述

Hadoop发展简史

  • Hadoop之父:Doug Cutting

  • Hadoop起源于Apache Lucene子项目:Nutch

    Nutch的设计目标是构建一个大型的全网搜索引擎。

    遇到瓶颈:如何解决数十亿网页的存储和索引问题。

  • Google 三篇论文

    《The Google file system》:谷歌分布式文件系统GFS

    《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce

    《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统

  • 狭义上Hadoop指软件 广义上Hadoop指生态圈
  • Hadoop之父Dong Cutting
  • Hadoop起源于Nutch项目
  • 受Google三篇论文启发
  • 2008年开源给Apache软件基金会

Hadoop特性优点

  • 扩容能力

    Hadoop是在可用的计算机集群分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。

  • 成本低

    Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

  • 效率高

    通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

  • 可靠性

    能自动维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

Hadoop国外应用

  • Yahoo

    支持广告系统

    用户行为分析

    支持Web搜索

    反垃圾邮件系统

  • Facebook

    存储处理数据挖掘和日志统计

    构建基于Hadoop数据仓库平台(Apache Hive来自FB)

  • IBM

    蓝云基础设施构建

    商业化Hadoop发行、解决方案支持

Hadoop国内应用

  • 百度

    用户搜索表征的需求数据、阿拉丁爬虫数据存储数据分析和挖掘 竞价排名

  • 阿里巴巴

    为电子商务网络平台提供地产的基础计算和存储服务交易数据、信用数据

  • 腾讯

    用户关系数据

    基于Hadoop、Hive构建TDW(腾讯分布式数据仓库)

  • 华为

    对Hadoop的HA方案,以及Hase领域的深入研究

  • Hadoop成功的魅力–通用性

    精准区分做什么和怎么做,做什么属于业务问题,怎么做属于技术问题。用户负责业务,Hadoop负责技术

  • Hadoop成功的魅力–简单

Hadoop发行版本

  1. 开源社区版 Apache开源社区发行也是官方发行版本

    优点:更新迭代快

    缺点:兼容稳定性不同

  2. 商业发行版 商业公司发行基于Apache开源协议某些服务需要收费

    优点:稳定兼容好
    缺点:收费 版本更新慢

Hadoop架构变迁(1.0-2.0变迁)

  • Hadoop 1.0

    HDFS (分布式文件存储)

    MapReduce (资源管理和分布式数据处理)

  • Hadoop 2.0

    HDFS (分布式文件存储)

    MapReduce(分布式数据处理)

    YARN(集群资源管理、任务调度)

  • Hadoop 3.0

    Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。

    • 通用

      精简内核、类路径隔离、shell脚本重构

    • Hadoop HDFS

      EC纠删码、多NameNode支持

    • Hadoop MapReduce

      任务本地化优化、内存参数自动推断

    • Hadoop YARN

      Timeline Service V2、队列配置
      精简内核、类路径隔离、shell脚本重构

    • Hadoop HDFS

      EC纠删码、多NameNode支持

    • Hadoop MapReduce

      任务本地化优化、内存参数自动推断

    • Hadoop YARN

      Timeline Service V2、队列配置

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Hadoop是一个开源的分布式计算框架,它允许用户在大量的计算机集群上存储和处理大量数据。Hadoop的核心组件包括HDFS(Hadoop Distributed FileSystem)和MapReduce。HDFS是Hadoop分布式文件系统,它将数据存储在大量的磁盘上,而不是单个计算机上。MapReduce是一种编程模型,用于处理和生成大数据集。 Hadoop的基本框架包括以下几个部分: 1. HDFS:Hadoop分布式文件系统,负责存储和管理大量数据。 2. MapReduce:一种编程模型,用于处理和生成大数据集。 3. YARN:Yet Another Resource Negotiator,负责资源管理和任务调度。 4. Hadoop Common:Hadoop的共享库,包含一些通用的工具和库。 5. Hadoop Auth:Hadoop的身份验证服务,负责用户认证和授权。 6. Hadoop HDFS Java API:Hadoop HDFS的Java接口,用于编写Java程序操作HDFS。 Hadoop的环境搭建主要包括以下步骤: 1. 安装Java环境:Hadoop是基于Java开发的,所以首先需要安装Java环境。 2. 下载并解压Hadoop:从Hadoop官网下载最新版本的Hadoop,然后解压到本地目录。 3. 配置Hadoop环境:编辑Hadoop的配置文件,设置Hadoop的环境变量。 4. 初始化HDFS:使用Hadoop的启动脚本初始化HDFS。 5. 启动Hadoop:启动Hadoop的各个组件,如HDFS、YARN等。 6. 测试Hadoop:运行一个简单的MapReduce任务,检查Hadoop是否正常运行。<span class="em">1</span><span class="em">2</span><span class="em">3</span><span class="em">4</span>

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

藤藤菜丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值