Flume
文章平均质量分 67
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
基于Flume的美团日志收集系统(一)架构和设计
问题导读:1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方?2.架构设计考虑需要考虑什么问题?3.Agent死机该如何解决?4.Collector死机是否会有影响?5.Flume-NG可靠性(reliability)方面做了哪些措施?美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数转载 2016-02-17 10:56:46 · 373 阅读 · 0 评论 -
基于Flume的美团日志收集系统(二)改进和优化
问题导读:1.Flume的存在些什么问题?2.基于开源的Flume美团增加了哪些功能?3.Flume系统如何调优?在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。1 Flu转载 2016-02-17 10:59:11 · 337 阅读 · 0 评论 -
flume开发--自定义Sink
kafka可以通过自定义Sink的方式实现数据搜集并写入各种LOTP数据库,下面的例子是通过自定义Source实现数据写入分布式K-V数据库Aerospike.1. 自定义Sink代码如下package kafka_sink.asd;import java.io.IOException;import java.net.ConnectException;import java.uti原创 2016-11-29 12:09:20 · 8210 阅读 · 2 评论 -
flume配置-生产环境下 Taildir Source to kafka Sink
生产环境下用flume搜集后端系统产产生的日志,并写入kafka集群,可以参照下面配置。clog.sources = source_logclog.channels = channel_logclog.sinks = sink_log1 sink_log2 sink_log3 clog.sources.source_log.type = TAILDIRclog.sources.sou原创 2017-01-03 12:07:13 · 5671 阅读 · 3 评论 -
flume开发-自定义拦截器(Interceptor)
拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。flume官方实现了很多拦截器也可以自定义拦截器。通过实现自定义的拦截器可以对日志进行ETL。自定义拦截器只需要实现Interceptor的继承类。具体步骤如下:1. 实现一个In原创 2017-01-04 14:55:21 · 6201 阅读 · 0 评论 -
flume配置-生产环境下从文件目录下将日志上传到s3
生产环境下将收集到的日志上传至s3,采用多个spoolDir soure 和多个hdfs sink的方式是为了提高读取数据,上传数据的吞吐量。clog.sources = source_log1 source_log2 clog.channels = channel_logclog.sinks = sink_log1 sink_log2 sink_log3 sink_log4 si原创 2016-12-28 10:57:04 · 3653 阅读 · 0 评论 -
flume性能调优总结
fllume经常被用在生产环境中收集后端产生的日志。一个flume进程就是一个Agent。要充分发挥flume的性能最主要的是要调好flume的配置参数。flume agent配置分为三部分:Source, Channel,Sink. Soure用来接收数据源的数据并放到channel里里面。Channel用来缓存Source放入的数据。Sink用来从channel中取出缓存的数据,并写到下个原创 2017-01-06 11:42:27 · 15082 阅读 · 0 评论