第二章 大数据处理架构

2.1.1 概述

  • Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
  • Hadoop 是基于 java 语言开发的具有很好的跨平台特性,并且可以部署在廉价的计算集群中。
  • Hadoop 的核心是分布式文件系统 HDFS (Hadoop Distributed File System)和 MapRudce。
  • Hadoop 被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。
  • 几乎所有的主流厂商都围绕Hadoop 提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等。

2.1.2 Hadoop 的特性

Hadoop 是一个能够对大量数据进行分布式处理的的软件框架,并且以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特点。

  • 高可靠性
  • 高效性
  • 高可扩展性
  • 高容错性
  • 成本低
  • 支持多种编程语言
  • 运行在Linux 平台上

2.1.3 Apache Hadoop 版本演变

Apache Hadoop 1.0

由 HDFS + MapReduce 组成,只有一个名称节点(即文件目录)。
1.0版本的 MapReduce 主要做两件事情:数据处理(数据分析)Data Processing 和 集群资源管理(资源调度)Cluster resource management。

Apache Hadoop 2.0

分散了 MapReduce 的职责。MapReduce 只负责数据处理(数据分析)。资源管理(资源调度)由YARN(Yet Another Resource Negotiator)进行。
有多个名称节点,分区域管理。HA为热备份,即当前名称节点出了故障,即备份的节点马上顶上,不影响程序的运行。

在这里插入图片描述

2.1.4 大数据计算模式及其产品

在这里插入图片描述
Spark 的效率比 MapReduce 高,原因是 Spark 是基于内存,而 MapReduce 是基于磁盘。

2.1.5 Hadoop 的项目结构

只是简单的介绍
在这里插入图片描述
在这里插入图片描述

Hive

数据仓库,专门用于企业决策分析的,可以对历史数据进行大量的分析,建立大量的维度。例如:分析过去12个月的销量趋势,通过OLAP分析实现。Hive 可以把 SQL 语句转成 大量的MapReduce作业,然后再去执行。(批量数据处理)

Pig

流数据处理,轻量级的分析,提供了类似 SQL 语句的语法 Pig Latin。轻量级的脚本语言。同样的操作,Hive 需要完整的代码段(定义变量,过程…),但 Pig 只需要一两行。

Oozie

作业流调度系统,工作流管理工具,讲一个大型作业分成多个小型作业后,决定小型作业的执行顺序。

HBase

面向列存储的超大型数据库,支持随机读写和实时应用。

Flume

专门做日志相关收集,实时生成的数据流要实时对其进行分析时,需要 Flume 进行数据收集。美团大数据架构中,也是采用的 Flume 进行日志收集工具。

Sqoop

数据导入导出,用于在 Hadoop 和传统数据库之间进行数据传递。
可以用 Sqoop 将关系型数据库的数据导入到 Hadoop、Hive、HDFS中。
也可以用 Sqoop 将 Hadoop 平台上的数据导出到关系型数据库中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值