序言:为便于初学者,对大数据的端到端架构有一个整体认知。我站在售前解决方案角度,整理和汇总了从数据采集、数据分析、数据存储再到数据治理等多方面内容。希望大家在读完本篇内容之后,可以有所学,有所得。(注:本文主要面向解决方案层面,对R&D同学的帮助可能不是很大)
1. 数据采集传输方式汇总
- Flume,非关系型数据的收集(与Fluentd类似),日志等信息收集
- Logstash,Elasticsearch 、Kibana 结合使用,ELK框架
- Scribe,Facebook开源的日志收集系统
- Chukwa,Hadoop系列,使用比较少
- Kafka,数据的传输和缓存工具
- Sqoop,Apache开源,关系型数据收集,异构环境数据交换,关系型数据库全量&增量同步工具
- Datax,阿里开源,关系型数据采集同步工具,离线环境中
- Kettle,国外开源的ETL工具,数据集成同步工具
上述各方式的使用频次,Flume、Sqoop和Kafka最高,Logstash次之,其他相对要少很多。
2. Flume介绍
2.1 Flume简介
Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据,并写到HDFS、Hbase等。Flume的数据流由事件(Event)贯穿始终,事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,然后Source会把事件推入(单个或多个)Channel中。可以把Channel看作是一个缓冲区,它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。
2.2 Flume架构
Client:生产数据,运行在一个独立的线程。Event: 一个数据单元,消息头和消息体组成。Flow: Event从源点到达目的点的迁移的抽象。
Agent: 一个独立的Flume进程,包含组件Source、 Channel、 Sink。(Agent使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。)Source: 数据收集组件。(source从Client收集数据,传递给Channel)Channel: 中转Event的一个临时存储,保存由Source组件传递过来的Event。(Channel连接 sources 和 sinks ,这个有点像一个队列。)Sink: 从Channel中读取并移除Event, 将Event传递到FlowPipeline中的下一个Agent(如果有的话)(Sink从Channel收集数据,运行在一个独立线程。)
Flume 核心是 Agent,Flume以agent为最小的独立运行单位,一个agent就是一个JVM,它是一个完整的数据收集工具,含有三个核心组件,分别是 source、 channel、 sink,通过这些组件, Event 可以从一个地方流向另一个地方