Flume
采集
皮哥四月红
这个作者很懒,什么都没留下…
展开
-
Flume自定义Sink实现将数据写入到MySQL表中
目录需求说明代码开发步骤第一步:创建mysql数据库表第二步:定义mysqlSink类第三步:代码打包上传第四步:开发flume的配置文件第五步:启动flume第六步:创建文件验证数据进入mysql需求说明 官方提供的sink类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些sink。如:需要把接受到的数据按照规则进行过滤之后写入到某张mysql表中,所以此时需要我们自己实现MySQLSink。 官方也提供了自定义s原创 2020-08-27 17:40:20 · 1842 阅读 · 0 评论 -
Flume自定义Source实现从MySQL数据库获取数据
目录需求说明代码开发步骤第一步:创建mysql数据库表第二步:创建maven工程,添加依赖第三步:添加配置文件第四步:代码开发1. 定义查询mysql的工具类2. 自定义mysqlSource类第五步:打包上传到flume的lib目录下第六步:开发flume的配置文件第七步:启动flume官方提供的source类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些source。如:实时监控MySQL,从MySQL中获取数原创 2020-08-27 17:31:43 · 1171 阅读 · 1 评论 -
Flume综合案例之自定义拦截器使用
目录案例需求实现步骤第一步:创建maven java工程,导入jar包第二步:自定义flume的拦截器第三步:打包上传服务器第四步:开发flume的配置文件第五步:上传测试数据第六步:node03启动flume并查看结果在前面的文章中Flume拦截器(interceptor)详解和静态拦截器综合案例实现对拦截器做了介绍,本文再结合具体案例对自定义拦截的使用作进一步介绍。案例需求在数据采集之后,通过flume的拦截器,实现不需要的数据过滤掉,并将指定的第一个字段..原创 2020-08-27 16:02:01 · 1068 阅读 · 0 评论 -
Flume拦截器(interceptor)详解和静态拦截器综合案例实现
目录一、Flume拦截器(interceptor)介绍二、Flume内置的拦截器1、时间戳拦截器2、主机拦截器3、静态拦截器4、正则过滤拦截器三、静态拦截器综合案例实现1. 案例场景2. 场景分析3. 数据流程处理分析4. 实现一、Flume拦截器(interceptor)介绍 拦截器是简单的插件式组件,设置在source和channel之间。source接收到的事件event,在写入channel之前,拦截器都可以进行转换或者删除这些事件。...原创 2020-08-27 15:32:02 · 4639 阅读 · 0 评论 -
Flume负载均衡load balancer案例实现
目录Load balancing Sink Processor介绍负载均衡案例实现第一步:开发node01服务器的flume配置第二步:开发node02、node03服务器的flume配置第三步:准备启动flume服务Load balancing Sink Processor介绍Flume中的Sink Processors,顾名思义,就是沉槽处理器,也就是数据向哪里流,怎么流由处理器控制。以sinkgroup的形式出现。简单的说就是一个source 对应一个Sinkgroups,原创 2020-08-27 15:03:57 · 651 阅读 · 0 评论 -
高可用Flum-NG配置Failover故障转移案例
目录1. 角色分配2. node01安装配置flume与拷贝文件脚本3. node02与node03配置flume collection4. 顺序启动命令5. 测试FAILOVER高可用的Flume NG集群,架构图如下所示:图中所示,Agent1数据分别流入到Collector1和Collector2,Flume NG本身提供了Failover机制,可以自动切换和恢复。在上图中,有2个产生日志服务器分布在不同的机房,要把所有的日志都收集到一个集群中存储。下面我们开发配置Fl原创 2020-08-27 14:44:23 · 202 阅读 · 0 评论 -
Flume中的事件event源码分析和自定义拦截器interceptor
你只管努力,上天自有安排!原创 2020-07-06 10:18:49 · 1111 阅读 · 0 评论 -
Flume数据采集案例(三)多数据源汇总
待整理实现!原创 2020-07-02 10:59:16 · 781 阅读 · 0 评论 -
Flume数据采集案例(二)单数据源多出口(Sink组)以及负载均衡、故障转移
准备工作:同上一篇 Flume数据采集案例之单数据源多出口(选择器)本次需求:使用在机器weekend110上部署的Flume-a1准实时监控本机目标端口44444的数据变动,Flume-a1将变动的内容分别传递给在weekend01上部署的Flume-a2 和 在weekend02上部署的Flume-a3,然后Flume-a2和Flume-a3都是在控制台进行输出。实现:分别在三台机器上的 /home/hadoop/app/flume-1.7.0-bin/ 下创建一个job目录,用来专门存放原创 2020-06-19 17:20:09 · 707 阅读 · 0 评论 -
Flume数据采集案例(一)单数据源多出口(选择器)
准备工作:三台已经安装好的虚拟机(weekend110、weekend01、weekend02)三台虚拟机上都已安装 JDK1.8 和 Flume1.7.0虚拟机weekend110上已安装 Hadoop2.7 和 Hive需求:使用在机器weekend110上部署的Flume-a1准实时监控日志文件 /tmp/hadoop/hive.log 的变动,Flume-a1将变动的内容传递给在weekend01上部署的Flume-a2,Flume-a2负责存储到HDFS。同时Flume-a1将变动内原创 2020-06-19 15:40:56 · 554 阅读 · 0 评论