大数据架构之端到端方案综述(1)数据采集

序言:为便于初学者,对大数据的端到端架构有一个整体认知。我站在售前解决方案角度,整理和汇总了从数据采集数据分析数据存储再到数据治理等多方面内容。希望大家在读完本篇内容之后,可以有所学,有所得。(注:本文主要面向解决方案层面,对R&D同学的帮助可能不是很大)


1. 数据采集传输方式汇总

  • Flume,非关系型数据的收集(与Fluentd类似),日志等信息收集
  • Logstash,Elasticsearch 、Kibana 结合使用,ELK框架
  • Scribe,Facebook开源的日志收集系统
  • Chukwa,Hadoop系列,使用比较少
  • Kafka,数据的传输和缓存工具
  • Sqoop,Apache开源,关系型数据收集,异构环境数据交换,关系型数据库全量&增量同步工具
  • Datax,阿里开源,关系型数据采集同步工具,离线环境中
  • Kettle,国外开源的ETL工具,数据集成同步工具

上述各方式的使用频次,Flume、Sqoop和Kafka最高,Logstash次之,其他相对要少很多。


2. Flume介绍

2.1 Flume简介

Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据,并写到HDFS、Hbase等。Flume的数据流由事件(Event)贯穿始终,事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,然后Source会把事件推入(单个或多个)Channel中。可以把Channel看作是一个缓冲区,它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。

2.2 Flume架构

Client:生产数据,运行在一个独立的线程。Event: 一个数据单元,消息头和消息体组成。Flow: Event从源点到达目的点的迁移的抽象。

Agent: 一个独立的Flume进程,包含组件Source、 Channel、 Sink。(Agent使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。)Source: 数据收集组件。(source从Client收集数据,传递给Channel)Channel: 中转Event的一个临时存储,保存由Source组件传递过来的Event。(Channel连接 sources 和 sinks ,这个有点像一个队列。)Sink: 从Channel中读取并移除Event, 将Event传递到FlowPipeline中的下一个Agent(如果有的话)(Sink从Channel收集数据,运行在一个独立线程。)

Flume 核心是 Agent,Flume以agent为最小的独立运行单位,一个agent就是一个JVM,它是一个完整的数据收集工具,含有三个核心组件,分别是 source、 channel、 sink,通过这些组件, Event 可以从一个地方流向另一个地方

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值