Flume(日志数据采集框架)
Flume(日志数据采集框架)
涂作权的博客
To do what I want to do!
展开
-
日志采集框架Flume、Flume介绍、概述、运行机制、Flume采集系统结构图(1、简单结构、复杂结构)
1. 日志采集框架Flume1.1 Flume介绍1.1.1 概述1.Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 2.Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 3.一般的采集需求,通过对flume的简单配置即可实现 4.Flume针对特殊场景也具备良好的自定原创 2017-06-13 17:08:34 · 2140 阅读 · 0 评论 -
Spark Streaming之:Flume监控目录下文件内容变化,然后Spark Streaming实时监听Flume,然后从其上拉取数据,并计算出结果
1、安装flume 2、到Spark-Streaming官网下载poll方式的Sink 3、将sink放入到flume的lib包里面 4、先启动flume(多个),然后在启动Streaming程序下载spark-flume http://spark.apache.org/documentation.html 到Spark-1.6.2中 http://spark.apache.org/do原创 2017-07-13 17:00:26 · 2489 阅读 · 1 评论 -
Flume安装部署,采集方案配置文件编写案例,启动agent采集数据
1.2 Flume实战案例1.2.1 Flume的安装部署1、Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 上传安装包到数据源所在节点上 然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz,最终解压到的位置是:/home/tuzq/software/apache-flume-1.6.0-bin 然后进入flume的目录,修改原创 2017-06-13 20:17:08 · 5379 阅读 · 0 评论 -
模拟使用Flume监听日志变化,并且把增量的日志文件写入到hdfs中
1.采集日志文件时一个很常见的现象采集需求:比如业务系统使用log4j生成日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs中。1.1.根据需求,首先定义一下3大要素:采集源,即source—监控日志文件内容更新:exec ‘tail -F file’ 下沉目标,即sink—HDFS文件系统:hdfs sink Source和sink之间的传递通道—-channel,可用f原创 2017-06-13 22:32:39 · 7764 阅读 · 0 评论 -
Flume监听文件夹中的文件变化,并把文件下沉到hdfs
1、采集目录到HDFS采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 根据需求,首先定义以下3大要素 采集源,即source——监控文件目录 : spooldir 下沉目标,即sink——HDFS文件系统 : hdfs sink source和sink之间的传递通道——channel,可用file channel 也可以用内存ch原创 2017-06-13 23:52:04 · 3044 阅读 · 0 评论 -
Flume案例:模拟两个agent之间传递消息的场景
模拟两个agent之间传递消息的场景说明:1.在hadoop1机器上有一个flume agent,通过exec监听tail命令输出的结果。 2.新增的结果通过avro sink的方式下层到hadoop2:4141的avro source端。 3.在hadoop2机器上有一个flume agent,通过avro source来接收下沉过来的数据。编写hadoop1上的通信配置文件在hadoop1上原创 2017-06-14 11:16:54 · 3034 阅读 · 0 评论 -
自定义Flume拦截器,并将收集的日志存储到Kafka中(案例)
1.引入POM文件如果想调用Flume,需要引入flume相关的jar包依赖,jar包依赖如下:<dependencies> <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <versi原创 2017-06-25 13:45:28 · 3561 阅读 · 2 评论 -
Flume日志采集,avro采集,以及通过参数控制下沉到hdfs的文件大小,时间等控制
1 Flume日志收集1.1 总体介绍官方地址:http://flume.apache.org/1.1.1 背景flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume ...原创 2018-06-23 14:21:57 · 2572 阅读 · 0 评论 -
nginx日志切割并使用flume-ng收集日志
nginx的日志文件没有rotate功能。如果你不处理,日志文件将变得越来越大,还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件,不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前,nginx还是会向你重命名的文件写日志,linux是靠文件描述符而不是文件名定位文件。第二步向nginx主进程发送USR1信号。nginx主进...转载 2018-07-24 11:29:03 · 1014 阅读 · 0 评论