flume
小强签名设计
真正牛逼的生活是既可以朝九晚五又可以浪迹天涯。
展开
-
flume遇到的坑
内存溢出报错:Exception in thread "SinkRunner-PollingRunner-DefaultSinkProcessor" java.lang.OutOfMemoryError: GC overhead limit exceeded at java.util.Arrays.copyOfRange(Arrays.java:3664) at java.lang.Str...原创 2020-03-16 19:41:50 · 628 阅读 · 0 评论 -
flume自定义sink
一、配置文件taildir.confa1.sources = r1a1.channels = c1a1.sinks = k1# Describe/configure the source#source的类型为TAILDIR,这里的类型大小写都可以a1.sources.r1.type = taildira1.sources.r1.channels = c1#存储tial最后一个位置...原创 2020-03-06 18:11:51 · 512 阅读 · 0 评论 -
Windows10安装apache-flume-1.9.0-bin
安装1、flume1.9下载地址:http://mirror.bit.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz2、然后找到1.9版本下载解压到指定路径(安装路径名称不能有空格)即可。...原创 2019-12-23 18:32:40 · 6012 阅读 · 4 评论 -
Flume或Kafka和Elasticsearch整合
前言:我这里是在Centos7.2 64位单机做的测试安装elasticsearch的时候不应该安装在root用户下,否则启动会报错:Exception in thread "main" java.lang.RuntimeException: don't run elasticsearch as root. at org.elasticsearch.bootstrap.原创 2017-10-11 15:44:43 · 3985 阅读 · 0 评论 -
flume的TaildirSource介绍及升级改造
flume 1.7.0推出了taildirSource组件。tail监控目录下匹配上正则表达式的的所有文件,实现断点续传。但是我后来发现cdh版的flume-1.6.0也已经有这个组件了,而官方的Apache版的apache-flume-1.6.0-bin却没有这个组件。并且Apache版的flume1.7.0比cdh版的flume1.6.0的org.apache.flume.source.t原创 2017-06-09 16:22:30 · 4689 阅读 · 4 评论 -
Flume断点续传深入研究
方法一:在excel source中运用复杂的tail命令在百度中搜索到一篇文章:https://my.oschina.net/leejun2005/blog/288136可以在tail传的时候记录行号,下次再传的时候,取上次记录的位置开始传输,类似:agent1.sources.avro-source1.command = /usr/local/bin/tail -n +$(tai原创 2017-12-12 10:54:11 · 5874 阅读 · 0 评论 -
Flume自定义功能实现
该功能可以实现flume读取xml配置文件在avro sink模式下可以同时开启多个端口,并且根据客户定义的xml来将数据处理后导入多个集群中的相应hbase表中。实现流程如下:准备工作:首先开启多个集群并且确认hbase和flume可以正常使用,还需将dom4j(用来解析xml文件)所需要的jar包dom4j-1.6.1.jar和jaxen-1.1-beta-7.jar(利用xpath技术来像s...原创 2017-12-12 09:59:05 · 1485 阅读 · 0 评论 -
flume实用案例(比较全)
案例1:AvroAvro可以发送一个给定的文件给Flume,Avro 源使用AVRO RPC机制。a)创建agent配置文件[hadoop@h71 conf]$ vi avro.confa1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r原创 2017-05-04 18:01:59 · 2846 阅读 · 0 评论 -
Flume 1.7组件概述与列表
一、Source列表:Component Interface(组件接口)Type Alias(类型别名)Implementation Class(实现类)org.apache.flume.Sourceavroorg.apache.flume.source.AvroSourceorg.apache.flume.Sourcenetcat原创 2017-08-25 13:46:00 · 660 阅读 · 0 评论 -
Flume拦截器(Interceptor)
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.7中目前提供了以下拦截器:Timestamp Interceptor;Host Interceptor;Static Interce原创 2017-08-25 18:19:32 · 4750 阅读 · 0 评论 -
Flume 监控
本文大部分内容来自:http://blog.csdn.net/u014039577/article/details/515367531、为什么需要Flume监控?Flume作为一个强大的数据收集工具,虽然功能非常强大实用,但是却无法看到flume收集数据的详细信息,所以我们需要一个能展示flume实时收集数据动态信息的界面,包括flume成功收集的日志数量、成功发送的日志数量、flume启原创 2017-08-23 18:21:17 · 765 阅读 · 0 评论 -
利用Flume拦截器(interceptors)实现Kafka Sink的自定义规则多分区写入
本文大部分内容来自:http://lxw1234.com/archives/2015/11/547.htm,非常感谢原作者我们目前的业务场景如下:前端的5台日志收集服务器产生网站日志,使用Flume实时收集日志,并将日志发送至Kafka,然后Kafka中的日志一方面可以导入到HDFS,另一方面供实时计算模块使用。前面的文章《Kafka分区机制介绍与示例》介绍过Kafka的分区机原创 2017-08-03 17:37:13 · 3530 阅读 · 2 评论 -
flume+kafka+storm+hdfs整合
基础环境:Redhat 5.5 64位(我这里是三台虚拟机h40,h41,h42)myeclipse 8.5jdk1.7.0_25Python-2.7.12zookeeper-3.4.5集群hadoop-2.6.0集群apache-storm-0.9.5集群kafka_2.10-0.8.2.0集群apache-flume-1.6.0-bin(h40主节点装就行)安装hadoop集群请参考:http...原创 2017-05-23 11:55:03 · 3825 阅读 · 0 评论 -
flume将数据导入到hbase中
安装flume:[hadoop@h71 ~]$ tar -zxvf flume-ng-1.6.0-cdh5.5.2.tar.gz修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ cp conf/flume-env.sh.template conf/flume-env.sh原创 2017-05-17 15:22:01 · 4488 阅读 · 0 评论 -
自定义实现flume中的HbaseEventSerializer接口
前言:flume-ng里面的SimpleHbaseEventSerializer只提供了最简单的数据插入hbase功能,如果还有其他需要,就得自己写HbaseEventSerializer类,实现flume中的HbaseEventSerializer接口。一个简单的实例如下:我的实验环境:flume-1.6.0-cdh5.5.2 (只在h71这台机器原创 2017-06-05 16:31:16 · 3339 阅读 · 1 评论 -
flume-ng-1.6.0-cdh5.5.2用maven重新编译打包
先在Windows的cmd命令提示符下进入编译源码pom.xml的根目录下。一开始我执行mvn install -Dmaven.test.skip=true -Dtar总是报错:后来百度到如果某些情况下不检查环境,可以在maven命令上加一个-Denforcer.skip=true 来跳过enforcer插件执行。于是我执行命令:mvn install -Den原创 2017-08-08 14:10:11 · 862 阅读 · 0 评论