Flume
NullPointerExcept
这个作者很懒,什么都没留下…
展开
-
Kafka与FlumeNG整合
1,作为Producer的Flume端配置,其中是以netcat为source数据源,sink是kafka[html] view plaincopyhadoop@stormspark:~/bigdata/apache-flume-1.4.0-bin$ cat conf/producer1.properties #agent sec转载 2017-01-01 20:37:19 · 462 阅读 · 0 评论 -
一组Logstash与elasticsearch的压测数据[转]
概述组内的日志系统基于ELK搭建,本文中的数据在生产环境中进行测试得到,仅供参考。系统构成系统可以简要的分为:日志接收机 日志数据队列 日志数据处理机 ES集群 在日志接收机上通过一个 Logstash 进程 parse 日志数据,将 parse 后的结构写入由 Redis List 实现的日志数据队列中,之后在ES集群前,再使用一个日志转载 2017-03-24 22:13:38 · 1454 阅读 · 0 评论 -
flume 拦截器(interceptor)
摘要: 拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。flume内置了很多拦截器,并且会定期的添加一些拦截器,在这里列出一些flume内置的,经常使用的拦截器。时间戳拦截器flume中一个转载 2017-03-25 09:11:46 · 1459 阅读 · 0 评论 -
flume【源码分析】分析Flume的拦截器
有的时候希望通过Flume将读取的文件再细分存储,比如讲source的数据按照业务类型分开存储,具体一点比如类似:将source中web、wap、media等的内容分开存储;比如丢弃或修改一些数据。这时可以考虑使用拦截器Interceptor。 flume通过拦截器实现修改和丢弃事件的功能。拦截器通过定义类继承org.apache.flume.interceptor.Interceptor接转载 2017-03-25 09:12:18 · 429 阅读 · 0 评论 -
scribe、chukwa、kafka、flume日志系统对比
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。本文从设计架构,负载转载 2017-03-25 09:39:15 · 357 阅读 · 0 评论 -
Flume性能测试报告
1. 测试环境1.1 硬件CPU:Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz(8核)内存:16G1.2 软件Flume:1.6.0Hadoop:2.6.0-cdh5.5.0Kfaka:2.11-0.9.0.1JDK:1.8.0_91-b14 64位1.3 测试文件文件大小:107M ,共490010条记录1.4 Flume转载 2017-03-26 17:27:59 · 3324 阅读 · 1 评论 -
一组Logstash与elasticsearch的压测数据[转]
概述组内的日志系统基于ELK搭建,本文中的数据在生产环境中进行测试得到,仅供参考。系统构成系统可以简要的分为:日志接收机日志数据队列日志数据处理机ES集群在日志接收机上通过一个 Logstash 进程 parse 日志数据,将 parse 后的结构写入由 Redis List 实现的日志数据队列中,之后在ES集群前,再使用一个日志处理机转载 2017-03-26 18:09:13 · 452 阅读 · 0 评论 -
Flume架构以及应用介绍
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 (一)Flume架构介绍 1、Flume的概念 flume是分布式的日转载 2017-03-27 10:27:27 · 1100 阅读 · 0 评论 -
flume学习:自定义拦截器
回想一下,spooldir source可以将文件名作为header中的key:basename写入到event的header当中去。试想一下,如果有一个拦截器可以拦截这个event,然后抽取header中这个key的值,将其拆分成3段,每一段都放入到header中,这样就可以实现那个需求了。遗憾的是,flume没有提供可以拦截header的拦截器。不过有一个抽取body内容的拦截器:Rege转载 2017-06-06 17:02:08 · 1205 阅读 · 0 评论 -
flume开发-自定义拦截器(Interceptor)
拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。flume官方实现了很多拦截器也可以自定义拦截器。通过实现自定义的拦截器可以对日志进行ETL。自定义拦截器只需要实现Interceptor的继承类。具体步骤如下:1.转载 2017-06-06 17:21:13 · 2252 阅读 · 0 评论 -
flume开发--自定义Sink
kafka可以通过自定义Sink的方式实现数据搜集并写入各种LOTP数据库,下面的例子是通过自定义Source实现数据写入分布式K-V数据库Aerospike.1. 自定义Sink代码如下[java] view plain copypackage kafka_sink.asd; import java.io.IOExcept转载 2017-06-06 17:35:42 · 660 阅读 · 0 评论 -
Flume(ng) 自定义sink实现和属性注入
问题导读:1.如何实现flume端自定一个sink,来按照我们的规则来保存日志?2.想从flume的配置文件中获取rootPath的值,该如何配置?最近需要利用flume来做收集远端日志,所以学习一些flume最基本的用法。这里仅作记录。远端日志收集的整体思路是远端自定义实现log4j的appender把消息发送到flume端,flume端自定义实现一个转载 2017-06-06 17:36:07 · 486 阅读 · 0 评论 -
flume自定义source
package me; import java.nio.charset.Charset;import java.util.HashMap;import java.util.Random; import org.apache.flume.Context;import org.apache.flume.EventDeliveryException转载 2017-06-06 17:36:53 · 1543 阅读 · 0 评论 -
Flume数据传输事务分析
本文基于ThriftSource,MemoryChannel,HdfsSink三个组件,对Flume数据传输的事务进行分析,如果使用的是其他组件,Flume事务具体的处理方式将会不同。一般情况下,用MemoryChannel就好了,我们公司用的就是这个,FileChannel速度慢,虽然提供日志级别的数据恢复,但是一般情况下,不断电MemoryChannel是不会丢数据的。Flume提供事转载 2017-06-07 10:10:41 · 395 阅读 · 0 评论 -
聊聊Flume和Logstash的那些事儿
在某个Logstash的场景下,我产生了为什么不能用Flume代替Logstash的疑问,因此查阅了不少材料在这里总结,大部分都是前人的工作经验下,加了一些我自己的思考在里面,希望对大家有帮助。本文适合有一定大数据基础的读者朋友们阅读,但如果你没有技术基础,照样可以继续看(这就好比你看《葵花宝典》第一页:欲练此功,必先自宫,然后翻到第二页:若不自宫,也可练功,没错就是这种感觉→_→)。转载 2017-03-24 21:57:08 · 22555 阅读 · 12 评论 -
利用Flume拦截器(interceptors)实现Kafka Sink的自定义规则多分区写入
我们目前的业务场景如下:前端的5台日志收集服务器产生网站日志,使用Flume实时收集日志,并将日志发送至Kafka,然后Kafka中的日志一方面可以导入到HDFS,另一方面供实时计算模块使用。前面的文章《Kafka分区机制介绍与示例》介绍过Kafka的分区机制。我们对Kafka中存储日志的Topic指定了多个分区,默认情况下,Kafka Sink在收到events之后,将会随机选择一个该Top转载 2017-03-24 17:17:57 · 4150 阅读 · 1 评论 -
Flume中的拦截器(Interceptor)介绍与使用(一)
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器:Timestamp Interceptor;Host Interceptor;Static Interce转载 2017-03-24 17:25:35 · 12363 阅读 · 0 评论 -
用Kibana和logstash快速搭建实时日志查询、收集与分析系统
Logstash是一个完全开源的工具,他可以对你的日志进行收集、分析,并将其存储供以后使用(如,搜索),您可以使用它。说到搜索,logstash带有一个web界面,搜索和展示所有日志。kibana 也是一个开源和免费的工具,他可以帮助您汇总、分析和搜索重要数据日志并提供友好的web界面。他可以为 Logstash 和 ElasticSearch 提供的日志分析的 Web 界面说到这里,我们转载 2017-01-11 15:24:08 · 302 阅读 · 0 评论 -
logstash入门(简单而全面)
简介Logstash是一个接收,处理,转发日志的工具。支持系统日志,webserver日志,错误日志,应用日志,总之包括所有可以抛出来的日志类型。怎么样听起来挺厉害的吧?依赖条件:JAVALogstash运行仅仅依赖java运行环境(jre)。各位可以在命令行下运行java -version命令显示类似如下结果:java -versionjav转载 2017-01-11 15:25:28 · 1616 阅读 · 0 评论 -
基于Flume的美团日志收集系统(二)改进和优化
在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。1 Flume的问题总结在Flume的使用过程中,遇到的主要问题如下:a. Channel“水土不服”:使用固定大小的MemoryChannel转载 2016-11-22 09:30:00 · 358 阅读 · 0 评论 -
基于Flume的美团日志收集系统(一)架构和设计
美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。第一部分架构和设计,将主要着眼于日志收集系统整体的架构设计,以及为什么要做这样的设计。第二部分改进和优化,将主要着眼于转载 2016-11-22 09:29:25 · 387 阅读 · 0 评论 -
Flume入门教程-简单案例
Flume入门教程-简单案例 1.下载安装 Java代码 官方网站:http://flume.apache.org/ http://mirror.bit.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz tar -zxvf apache-flume-1.6.0-bin.t转载 2017-01-01 14:28:59 · 602 阅读 · 0 评论 -
Flume(NG)架构设计要点及配置实践
Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failover和负载均衡。架构设计要点转载 2016-11-17 16:54:24 · 316 阅读 · 0 评论 -
玩转Flume+Kafka原来也就那点事儿
好久没有写分享了,继前一个系列进行了Kafka源码分享之后,接下来进行Flume源码分析系列,望大家继续关注,今天先进行开篇文章Flume+kafka的环境配置与使用。一、FLUME介绍Flume是一个分布式、可靠、和 高可用 的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力转载 2017-01-01 18:12:35 · 6256 阅读 · 0 评论 -
Flume-NG源码阅读之Interceptor
有的时候希望通过Flume将读取的文件再细分存储,比如讲source的数据按照业务类型分开存储,具体一点比如类似:将source中web、wap、media等的内容分开存储;比如丢弃或修改一些数据。这时可以考虑使用拦截器Interceptor。 flume通过拦截器实现修改和丢弃事件的功能。拦截器通过定义类继承org.apache.flume.interceptor.Intercepto转载 2017-02-14 15:07:33 · 216 阅读 · 0 评论 -
flume日志采集
1. Log4j Appender1.1. 使用说明1.1.2. Client端Log4j配置文件(黄色文字为需要配置的内容)log4j.rootLogger=INFO,A1,R # ConsoleAppender outlog4j.appender.A1=org.apache.log4j.ConsoleAppende转载 2017-02-14 15:13:21 · 454 阅读 · 0 评论 -
Flume-ng+Kafka+storm的学习笔记
吐个槽 :在word文档中写好的 包括图片 在csdn粘贴过来后 图片必须重新上传 不爽啊!!Flume-ng+Kafka+storm的学习笔记 Flume-ngFlume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume的文档可以看http://flume.apache.org/FlumeUserGuide.htm转载 2016-11-17 16:52:21 · 418 阅读 · 0 评论 -
Flume中的拦截器(Interceptor)介绍与使用(二)
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器:Timestamp Interceptor;Host Interceptor;Static Interce转载 2017-03-24 17:26:39 · 659 阅读 · 0 评论 -
Flume架构与源码分析-核心组件分析-1
首先所有核心组件都会实现org.apache.flume.lifecycle.LifecycleAware接口:public interface LifecycleAware { public void start(); public void stop(); public LifecycleState getLifecycleState();}start方法在整个Flu转载 2017-06-07 10:43:12 · 428 阅读 · 0 评论