Flume
文章平均质量分 81
Wang_Zhenwei
这个作者很懒,什么都没留下…
展开
-
Flume学习3_Flume NG:Flume 发展史上的第一次革命
Flume 作为 cloudera 开发的实时日志收集系统,已经受到越来越多的关注。比如 IBM BigInsights 已经将 Flume 作为产品的一部分。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤转载 2015-09-11 17:26:15 · 1115 阅读 · 0 评论 -
flume学习(十一):如何使用Spooling Directory Source
1.如何理解将FTP上的信令数据汇聚到HDFS上去存储?2.使用Spooling Directory Source的时候同时读写一个文件会怎样?最近在弄一个信令数据汇聚的事情,主要目的是把FTP上的信令数据汇聚到HDFS上去存储。 逻辑是这样的:把FTP服务器上的文件下载到一台主机上,然后SCP到另外一台主机上的Spooling Director转载 2015-09-30 16:38:35 · 848 阅读 · 0 评论 -
Flume学习9_log4j:ERROR setFile(null,true) call failed产生的一个原因
在使用bin/flume-ng agent --conf conf/ -f conf/flume.conf -n producer启动flume后,会报一下的错误:[hadoop@Master ~]$ cd /usr/local/flume/[hadoop@Master flume]$ bin/flume-ng agent --conf conf/ -f conf/flume.c原创 2015-10-12 15:28:43 · 6418 阅读 · 0 评论 -
Flume学习10_Flume->Kafka数据流操作
Kafka启动启动Zookeeper和Kafka,过程省略 新建一个Topic,并启动,Topic的名字与下面的名字应该对应,都是topic1:[hadoop@Slave1 bin]$ sh kafka-topics.sh --create --topic flume1 --replication-factor 1 --partitions 1 --zookeeper Slave1原创 2015-10-30 20:13:50 · 1365 阅读 · 0 评论 -
Flume学习11_Flume1.5.0的安装使用及传输数据到Hadoop2.2
问题导读:1.什么是flume?2.如何安装flume?3.flume的配置文件与其它软件有什么不同?一、认识flume1.flume是什么?这里简单介绍一下,它是Cloudera的一个产品2.flume是干什么的?收集日志的3.flume如何搜集日志?我们把flume比作情报人员(1)搜集信息(2)获取记忆信息(3)传递报告转载 2015-11-02 13:36:44 · 915 阅读 · 0 评论 -
[FLUME-2052]Spooling directory source should be able to replace or ignore malformed characters
来自Flume官网,原文地址:https://issues.apache.org/jira/browse/FLUME-2052 根据原文描述,有人在使用Flume读取编码混乱的数据过程中,遇到了错误,然后上官网提出改进意见,希望忽略掉这种错误。细节描述:DetailsType:Improvement ImprovementStatus:RESOLVEDPri翻译 2015-11-03 14:21:29 · 809 阅读 · 0 评论 -
【Java】【Flume】Flume-NG启动过程源码分析(三)
本篇分析加载配置文件后各个组件是如何运行的? 加载完配置文件订阅者Application类会收到订阅信息执行: @Subscribe public synchronized void handleConfigurationEvent(MaterializedConfiguration conf) { stopAllComponents(); startAll转载 2015-11-04 11:32:48 · 436 阅读 · 0 评论 -
【Java】【Flume】Flume-NG启动过程源码分析(二)
本节分析配置文件的解析,即PollingPropertiesFileConfigurationProvider.FileWatcherRunnable.run中的eventBus.post(getConfiguration())。分析getConfiguration()方法。此方法在AbstractConfigurationProvider类中实现了,并且这个类也初始化了三大组件的工厂类:this转载 2015-11-04 11:12:37 · 504 阅读 · 0 评论 -
【Java】【Flume】Flume-NG启动过程源码分析(一)
从bin/flume 这个shell脚本可以看到Flume的起始于org.apache.flume.node.Application类,这是flume的main函数所在。 main方法首先会先解析shell命令,如果指定的配置文件不存在就甩出异常。 根据命令中含有"no-reload-conf"参数,决定采用那种加载配置文件方式:一、没有此参数,会动态加载配置文件,默认每30秒转载 2015-11-04 10:29:28 · 625 阅读 · 0 评论 -
【Java】【Fulme】Flume-NG源码阅读之SpoolDirectorySource
org.apache.flume.source.SpoolDirectorySource是flume的一个常用的source,这个源支持从磁盘中某文件夹获取文件数据。不同于其他异步源,这个源能够避免重启或者发送失败后数据丢失。flume可以监控文件夹,当出现新文件时会读取该文件并获取数据。当一个给定的文件被全部读入到通道中时,该文件会被重命名以标志已经完成。同时,该源需要一个清理进程来定期移除完成转载 2015-11-04 10:19:46 · 751 阅读 · 0 评论 -
Flume学习12_Flume Spooling directory source读取文件格式的要求
把Flume的Source设置为 Spooling directory source,在设定的目录下放置需要读取的文件,一些文件在读取过程中会报错。文件格式和报错如下:实验一读取汉子和“;"符号的TXT文档会报一下错误2015-11-06 22:16:02,386 (pool-3-thread-1) [ERROR - org.apache.flume.source.原创 2015-11-08 14:39:40 · 7912 阅读 · 2 评论 -
Flume学习1_Flume NG架构设计要点及配置实践
Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failover和负载均衡。架构设计要点转载 2015-09-11 01:31:04 · 924 阅读 · 0 评论 -
flume学习(十):使用Morphline Interceptor
1.Morphline是干嘛用的?2.如何将message属性添加到event的headers当中?Morphline是干嘛用的?简单点说就是一个ETL工具,详细介绍:http://kitesdk.org/docs/current/ ... ReferenceGuide.html这里有一个注意点,是和cloudera search版本有关系的,我是用转载 2015-09-30 16:35:50 · 1001 阅读 · 0 评论 -
flume学习(九):自定义拦截器
1.如何添加拦截器RegexExtractorExtInterceptor?2.改动的内容中是如何增加两个配置参数?还是针对学习八中的那个需求,我们现在换一种实现方式,采用拦截器来实现。先回想一下,spooldir source可以将文件名作为header中的key:basename写入到event的header当中去。试想一下,如果有一个拦截器可以转载 2015-09-30 16:05:59 · 1097 阅读 · 0 评论 -
flume学习(七)、(八):如何使用event header中的key值以及自定义source
1.如何使用event header中的key值?2.如何部署扩展自定义的spooling directory source?前面我们已经说到我们在header中添加了一个key为:flume.client.log4j.logger.source ,然后有两个应用程序,一个设置为app1,一个设置为app2。现在有这么一个需求,要将app1的日志输出到转载 2015-09-30 15:18:44 · 8097 阅读 · 0 评论 -
Flume学习2_Flume NG简介、配置实战、技术架构应用和可能遇到的问题
目录[-]1、Flume 的一些核心概念:1.1 数据流模型1.2 高可靠性1.3 可恢复性2、Flume 整体架构介绍2.1 Exec source2.2 Spooling Directory Source3、常用架构、功能配置示例3.1 先来个简单的:单节点 Flume 配置3.2 单节点 Flume 直接写入 HDFS3.3 来一个常见架构转载 2015-09-11 14:24:32 · 1287 阅读 · 0 评论 -
Flume学习4_CentOS6.5下,Flume安装及配置详细教程-存疑版
CentOS6.5下,Flume安装及配置详细教程 下载地址:http://mirror.bit.edu.cn/apache/flume/1.5.0.1/apache-flume-1.5.0.1-bin.tar.gz 安装:cd /usr/local打开local目录wget http://mirror.bit.edu.cn/apache/flume/1.5.0.1原创 2015-09-14 13:41:32 · 3596 阅读 · 0 评论 -
Flume学习5_Flume环境部署和配置详解及案例大全
flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。一、什么是Flume? flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flu转载 2015-09-14 14:34:23 · 887 阅读 · 0 评论 -
Flume学习6_flume配置文件
Flume配置文件(flume-site.conf) 1、 watchdogwatchdog.restarts.maxwatchdog每分钟重启的最大数??? 2、 common nodeflume.config.heartbeat.periodnode转载 2015-09-16 16:25:46 · 1586 阅读 · 0 评论 -
Flume学习7_Flume配置文件内容详解
对(CentOS6.5下,Flume安装及配置详细教程)(链接:http://blog.csdn.net/wang_zhenwei/article/details/48438105)中的配置文件进行解释:a1.sources = r1a1.sinks = k1a1.channels = c1该配置文件中 配置了一个代理a1 在代理agent中配置了一个原创 2015-09-16 18:25:57 · 5588 阅读 · 0 评论 -
Flume学习8_Flume1.5.0入门:安装、部署、及flume的案例
一、什么是Flume? flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发转载 2015-09-29 16:53:27 · 914 阅读 · 0 评论 -
flume学习(一):log4j直接输出日志到flume
1、如何让log4j直接输出日志到flume?2、如何写一个简单的测试类来测试呢?3、如何看到log4j的日志是否输出到了flume中?log4j.properties配置:log4j.rootLogger=INFOlog4j.category.com.besttone=INFO,flumelog4j.appender.flume转载 2015-09-30 10:06:42 · 1164 阅读 · 0 评论 -
flume学习(三):Flume Interceptors的使用
1、如何理解flume拦截器?2、如何使用regex_filter和 timestamp这两个拦截器来实现一个较强的功能?3、怎样为source1添加了两个拦截器?对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作。官方上提转载 2015-09-30 10:45:52 · 1111 阅读 · 0 评论 -
flume学习(四):Flume Channel Selectors使用
1、怎样将不同项目的的日志输出到不同的channel?2、如何理解一个sink为hdfs,一个sink为logger的拓扑结构?3、怎样在Log4jExtAppender.java类里扩展一个参数?前几篇文章只有一个项目的日志,现在我们考虑多个项目的日志的收集,我拷贝了一份flumedemo项目,重命名为flumedemo2,添加了一个WriteLog2.java类转载 2015-09-30 11:06:08 · 913 阅读 · 0 评论 -
flume学习(五):flume将log4j日志数据写入到hdfs
1.将log4j的日志输出到agent的日志文件当中,应如何配置文件?2.把log4j的日志直接采集输出到hdfs中去,如何修改flume.conf中sink的配置?在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中。配置文件如下:tier1.sources=source1tier1.channels=chan转载 2015-09-30 14:26:04 · 1718 阅读 · 0 评论 -
flume学习(六):使用hive来分析flume收集的日志数据
1.遇到无法转换成JSON对象的字符串时应如何处理?2.遇到非JSON格式输入的时候应如何处理?前面已经讲过如何将log4j的日志输出到指定的hdfs目录,我们前面的指定目录为/flume/events。如果想用hive来分析采集来的日志,我们可以将/flume/events下面的日志数据都load到hive中的表当中去。如果了解hive的load转载 2015-09-30 15:15:24 · 1363 阅读 · 0 评论 -
flume学习(二):如何找到cm安装的flume的配置文件
1、如何将log4j的日志输出到agent的日志文件当中?2、怎么将sink的type由logger变为hdfs?3、报错?你给目录授权了吗?通过CM安装好flume-ng之后,可以在管理界面上修改flume.conf配置,但是 /etc/flume-ng/conf目录下的flume.conf文件却空空如也。由于对CM的运行原理不了解,搞不明白我修改的配置信息保存到转载 2015-09-30 10:32:35 · 1948 阅读 · 0 评论