大数据架构之端到端方案综述（1）数据采集

最新推荐文章于 2023-07-26 17:45:06 发布

小事儿Phil

最新推荐文章于 2023-07-26 17:45:06 发布

阅读量1.4k

点赞数

分类专栏：大数据文章标签：大数据架构数据采集数据分析数据治理解决方案

本文链接：https://blog.csdn.net/liyunpeng229/article/details/88776383

版权

序言：为便于初学者，对大数据的端到端架构有一个整体认知。我站在售前解决方案角度，整理和汇总了从数据采集、数据分析、数据存储再到数据治理等多方面内容。希望大家在读完本篇内容之后，可以有所学，有所得。（注：本文主要面向解决方案层面，对R&D同学的帮助可能不是很大）

1. 数据采集传输方式汇总

Flume，非关系型数据的收集（与Fluentd类似），日志等信息收集
Logstash，Elasticsearch 、Kibana 结合使用，ELK框架
Scribe，Facebook开源的日志收集系统
Chukwa，Hadoop系列，使用比较少
Kafka，数据的传输和缓存工具
Sqoop，Apache开源，关系型数据收集，异构环境数据交换，关系型数据库全量&增量同步工具
Datax，阿里开源，关系型数据采集同步工具，离线环境中
Kettle，国外开源的ETL工具，数据集成同步工具

上述各方式的使用频次，Flume、Sqoop和Kafka最高，Logstash次之，其他相对要少很多。

2. Flume介绍

2.1 Flume简介

Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据，并写到HDFS、Hbase等。Flume的数据流由事件(Event)贯穿始终，事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Agent外部的Source生成，当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。

2.2 Flume架构

Client：生产数据，运行在一个独立的线程。Event：一个数据单元，消息头和消息体组成。Flow： Event从源点到达目的点的迁移的抽象。

Agent：一个独立的Flume进程，包含组件Source、 Channel、 Sink。（Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。）Source：数据收集组件。（source从Client收集数据，传递给Channel）Channel：中转Event的一个临时存储，保存由Source组件传递过来的Event。（Channel连接 sources 和 sinks ，这个有点像一个队列。）Sink：从Channel中读取并移除Event，将Event传递到FlowPipeline中的下一个Agent（如果有的话）（Sink从Channel收集数据，运行在一个独立线程。）

Flume 核心是 Agent，Flume以agent为最小的独立运行单位，一个agent就是一个JVM，它是一个完整的数据收集工具，含有三个核心组件，分别是 source、 channel、 sink，通过这些组件， Event 可以从一个地方流向另一个地方

最低0.47元/天解锁文章

小事儿Phil

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
大数据架构之端到端方案综述（1）数据采集

序言：为便于初学者，对大数据的端到端架构有一个整体认知。我站在售前解决方案角度，整理和汇总了从数据采集、数据分析、数据存储再到数据治理等多方面内容。希望大家在读完本篇内容之后，可以有所学，有所得。（注：本文主要面向解决方案层面，对R&D同学的帮助可能不是很大）1. 数据采集传输方式汇总Flume，非关系型数据的收集（与Fluentd类似），日志等信息收集 Logstash，Ela...
复制链接

扫一扫