Flume
Polaris-zlf
不抛弃 不放弃
展开
-
Flume和Kafka整合
采集单元选用模块化程度极高的 Flume-ng,传输单元选择高吞吐率的 Kafka,将两者结合共同构成分布式计算集群的基础数据输入组件。材料准备:Zookeeper - 3.4.6Flume - 1.5.0kafka_2.10-0.8.1.1.tgzFlume-Kafka 插件首先要准备 flume-kafka 插件,进行编译下载地址:htt原创 2016-10-06 22:37:06 · 2746 阅读 · 1 评论 -
Flume-ng原理
Flume是一个日志收集系统。具有分布式、高可靠、高可用性(HA)等特点。对海量日志进行采集、聚合和传输,它可以自己定制各类数据发送方,可以对数据进行简单的处理,并且可以写到各种数据接受方。Flume 的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的数据。Flume 传输数据的基本单位是 even原创 2016-10-18 17:53:17 · 359 阅读 · 0 评论 -
flume-ng抓取日志文件存入mysql中
编写代码:创建一个Maven项目,在pom.xml中添加下面的内容 org.apache.flume flume-ng-configuration 1.5.2 org.apache.flume flume-ng-core 1.5.2原创 2016-11-08 10:50:09 · 2375 阅读 · 0 评论 -
Flume中的HDFS Sink配置
Flume中的HDFS Sink配置参数说明type:hdfspath:hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/filePrefix:默认值:FlumeData,写入hdfs的文件名前缀fileSuffix:写入 hdfs 的文件名后缀,比如:.lzo .log等。inUsePrefix:临时文件的文件名前原创 2016-09-30 16:22:04 · 4732 阅读 · 0 评论 -
Flume集群搭建
2个agent,一个负责采集数据,然后提交给收集数据的agent,收集到数据之后打印出来。event:一个数据单元,带有一个可选的消息头环境搭建:hadoop1 数据采集端hadoop2 数据接收端数据采集端:source:spooldirchannel:memorysink:avro 数据接收端:原创 2016-09-29 16:04:05 · 404 阅读 · 0 评论 -
Eclipse查看flume源码
首先电脑要安装Maven本文使用的是:apache-maven-3.0.5-bin.tar.gz解压,配置环境变量。Maven安装好后检查,出现下面信息表示安装Maven成功。C:\Users\Administrator>mvn[INFO] Scanning for projects...[INFO] ----------------------------原创 2016-09-29 13:18:44 · 1678 阅读 · 0 评论 -
Maven编译Flume-ng 1.5.0
确保可以上网,因为编译时要下载很多的jar 包1、安装Maven下载:apache-maven-3.0.5-bin.tar.gz解压:[sparkadmin@hadoop4 ~]$ tar -zxvfapache-maven-3.0.5-bin.tar.gz配置环境变量[sparkadmin@hadoop4 ~]$ vim .bashrcexpo原创 2016-09-28 17:46:10 · 2055 阅读 · 0 评论 -
Flume-og和Flume-ng的变化
Flume是一个分布式、可靠、高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方。原创 2016-09-26 18:28:13 · 2979 阅读 · 2 评论 -
Flume单机安装并且测试
本文使用的是:apache-flume-1.5.0-bin.tar.gz解压[sparkadmin@hadoop4 ~]$ tar -zxvf apache-flume-1.5.0-bin.tar.gz进行外关联[sparkadmin@hadoop4 ~]$ ln -s apache-flume-1.5.0-bin flume[sparkadmi原创 2016-09-28 11:34:55 · 1959 阅读 · 0 评论 -
Flume负载均衡
负载均衡:source里的event流经channel,进入sink组,在sink组内部根据负载算法(round_robin、random)选择sink,后续可以选择不同机器上的agent实现负载均衡。使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。Client,生产数据,运行在一个独立的线程。集原创 2016-11-02 18:52:11 · 2112 阅读 · 0 评论 -
Flume-ng 例子
本文用到的 apache-flume-1.5.0-bin.tar.gz关于Flume 的安装可以参考:http://blog.csdn.net/u012689336/article/details/52687956原创 2016-10-12 09:03:11 · 1238 阅读 · 0 评论 -
Flume hdfs 案例
1、业务背景:A、B两台机器上实时生产日志文件:access.log、ugcheader.log、ugctail.log现在要求: 把A、B 机器中的 access.log、ugcheader.log、ugctail.log 汇总到C机器上统一收集到hdfs中。但是在hdfs中要求的目录为: /source/access/20160101/** /source/原创 2016-10-19 14:30:22 · 544 阅读 · 0 评论