Hadoop大数据技术生态

步骤1（任务提交）：用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
步骤2（启动AM）：ResourceManager负责接收和处理客户端请求。为该应用程序分配第一个Container，并与对应的NodeManager通信，要求它在这个Container中启动应用程序的ApplicationMaster。
步骤3（向RM注册）：ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManager查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态。

接下来步骤4-步骤7是应用程序执行步骤。

步骤4　ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源。（向RM申请资源）
步骤5　一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务。（启动任务1）
步骤6　NodeManager为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。（启动任务2）
步骤7　各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。在应用程序运行过程中，用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。（任务执行和汇报）
步骤8　应用程序运行完成后，ApplicationMaster向ResourceManager注销并关闭自己。（AM关闭）

三、Hive

1、背景

Hive起源于Facebook，Facebook每天产生PB级的数据。

解决数据存储的方案是Hadoop:

特点：

拥有较好的可用性和扩展性；
多台机器时效率可以提升；
ACID没有可用性和扩展性重要。

依然面临的问题：

1、专业人才短缺（MapReduce）：编写MapReduce程序学习成本高，大多员工比较熟悉sql语言；

2、统一数据管理需求。需要一个元数据管理模块来管理数据。

Hive设计的初衷：

对于大量的数据，使得数据汇总，查询和分析更加简单。
它提供了SQL，允许用户更加简单地进行查询，汇总和数据分析，即SQL on Hadoop 。
Hive不是为在线事务处理而设计，它适合于传统的数据仓库任务。

2、Hive框架

比较官方的介绍：

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。

Hive框架：

Hive计算基于MapReduce
Hive存储基于hdfs

Hive可以认为是MapReduce的一个封装、包装。Hive的意义就是在业务分析中将用户容易编写、会写的Sql语言转换为复杂难写的MapReduce程序，从而大大降低了Hadoop学习的门槛，让更多的用户可以利用Hadoop进行数据挖掘分析。

为了让大家容易理解Hive的实质——-“Hive就是一个SQL解析引擎，将SQL语句转化为相应的MapReduce程序”。下面用一个图例来演示：

Hive跟ODPS表操作很相似：

表管理、sql语法、任务调优、内表/外表、分区、动态插入、多种数据存储格式

四、Spark

在核心框架 Spark 的基础上,主要提供四个范畴的计算框架:

- Spark SQL: 提供了类 SQL 的查询,返回 Spark-DataFrame 的数据结构(类似 Hive)

- Spark Streaming: 流式计算,主要用于处理线上实时时序数据(类似 storm)

- MLlib: 提供机器学习的各种模型和调优

- GraphX: 提供基于图的算法,如 PageRank

RDD 初识

　　RDD(Resilent Distributed Datasets)俗称弹性分布式数据集,是 Spark 底层的分布式存储的数据结构,可以说是 Spark 的核心, Spark API 的所有操作都是基于 RDD 的。

RDD数据不只存储在一台机器上,而是分布在多台机器上,实现数据计算的并行化.弹性表明数据丢失时,可以进行重建。

RDD算子举例：map,countByKey,foreach,reduce,aggregate,foreachPartition……

var mapresult = data.map(line => line.split("\\s+"));

Partition

spark中的partion是弹性分布式数据集RDD的最小单元，RDD是由分布在各个节点上的partion组成的。

Spark宽窄依赖

窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区。
宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区。

DAG划分

Spark Streamming介绍

基本概念：

批处理窗口大小通常在0.5~2s之间。

重要参数：

1.批处理时间间隔。将该时间间隔内采集到的数据统一处理。即spark多久对数据流切分一次，每切分一次生成一个RDD。

2.窗口时间间隔。对一定时间范围内的数据进行统计和分析。它必须是批处理时间的整数倍，且比批处理时间间隔大。

3.滑动时间间隔。对数据进行统计和分析的频率，即多久滑动一下窗口。也必须是批处理时间的整数倍，即触发计算的间隔时间。

比如三个参数分别为(1,3,2)。含义则是每隔2s对过去3秒内的3个RDD进行统计分析。

scala> import org.apache.spark.streaming._ 
scala> val ssc = new StreamingContext(sc, Seconds(2))   //2秒的批处理时间间隔 
scala> val lines = ssc.textFileStream("file:///usr/local/spark/mycode/streaming/logfile") 
lines: org.apache.spark.streaming.dstream.DStream[String] = org.apache.spark.streaming.dstream.MappedDStream@62e0fe3 
scala> val words = lines.flatMap(_.split(" ")) 
words: org.apache.spark.streaming.dstream.DStream[String] = org.apache.spark.streaming.dstream.FlatMappedDStream@86cdf99 
scala> val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)  
scala> wordCounts.print()   
scala> ssc.start()   
scala> ssc.awaitTermination()

五、Flume

1、Flume基础概念

Flume 是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统， Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。（Flume使用java编写，支持Java1.6及以上。）

Flume主要有以下几个核心概念：

Event：flume最基本的数据单元，带有一个可选的消息头（headers）。如果是文本，event通常是一行记录，event也是事务的基本单位。

Flow：Event从源点到达目的点的迁移的抽象。

Client：操作位于源点处的Event，将其发送到Flume Agent。

Agent：一个独立的Flume进程，包含组件Source、Channel、Sink 。

Source：用来消费传递到该组件的Event，完成对数据的收集，分成transtion和event打入到channel之中。不同的 source，可以接受不同的数据格式。

Channel: 主要提供一个队列的功能，对source提供中的数据进行简单缓存，作用是保证source到sink的数据传输过程一定能成功。

Sink：取出Channel中的数据，进行相应的存储文件系统、数据库等。

2、核心组件配置介绍

Flume官方文档链接： Flume官方文档

source

client端操作消费数据的来源，支持的类型有exec、Avro、log4j、syslog、http post、Thrift、JMS、Spooling Directory等类型。

对于直接读取文件 Source,有两种方式：

ExecSource: 以运行 Linux 命令的方式，持续的输出最新的数据，如 tail -F 文件名指令，在这种方式下，取的文件名必须是指定的。
SpoolSource: 监测配置的目录下新增的文件，并将文件中的数据读取出来。

channel

有Memory Channel, JDBC Channel, File Channel, Kafka Channel、Psuedo Transaction Channel. 比较常用的是前三种。

MemoryChannel 可以实现高速的吞吐，但是无法保证数据的完整性。
FileChannel保证数据的完整性与一致性、但吞吐量下降。

Sink

支持的数据类型：HDFS Sink, Logger Sink, Avro Sink, Thrift, IPC, File Roll ，Kafka Sink等等。

一个基本的配置文件示例：

（监测一个文件内日志数据变化，并输出到日志）

a1.sources = r1 
a1.sinks = k1 
a1.channels = c1 
#describe/configure the source 
a1.sources.r1.type=exec 
a1.sources.r1.command=tail -F /home/hadoop/abc.log 
a1.sources.r1.channels = c1 
# Use a channel which buffers events in memory 
a1.channels.c1.type = memory 
a1.channels.c1.capacity = 1000 
a1.channels.c1.transactionCapacity = 100 
# Describe the sink 
a1.sinks.k1.type = logger 
# Bind the source and sink to the channel 
a1.sources.r1.channels = c1 
a1.sinks.k1.channel = c1

3、Kafka、Flume对比

都可以实现数据传输，但侧重点不同。

Kafka追求的是高吞吐量、高负载、提供push和pull、自带存储。

Flume追求的是数据的多样性：数据来源的多样性、数据流向的多样性。

如果数据来源很单一、想要高吞吐的话可以使用Kafka；但需要自己实现source和sink进程。

如果数据来源很多、数据流向很多的话可以使用Flume，很适合做日志采集；

另外有些场景，可以将Kafka和Flume结合起来使用。

六、大数据架构图示例

1、基于开源Hadoop生态技术的大数据架构图：

2、Hadoop大数据生态图：

山森海子

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Hadoop大数据技术生态

一、大数据技术生态图 Ambari：可以安装、部署及管理hadoop、hive、hbase、zk等集群。 HDFS：Hadoop中的分布式文件存储系统。 Yarn：Hadoop中的集群资源管理和调度系统。 MapReduce：Hadoop中的分布式离线计算框架。 Spark：分布式内存计算框架。包括sparkcore、sparkstreaming、sparkmllib等组件。 Tez：对MapReduce任务进行优化，加快执行速度。 ...
复制链接

扫一扫

专栏目录