flume
flume的基本使用, 案例
First_____
这个作者很懒,什么都没留下…
展开
-
flume监控: kafka输出到hdfs示例
需求: 1.将kafka中的数据采集传输到hdfs当中 2.采用的是lzo压缩的方式(也可以不采用压缩方式,flume官网有) 3.这里使用的是两个主题kafka主题采集a1.sources=r1 r2a1.channels=c1 c2a1.sinks=k1 k2# kafka sourcea1.sources.r1.type = org.apache.flume.source.kafka.KafkaSourcea1.sources.r1.channels = c1a1.sourc原创 2022-03-27 11:49:36 · 2175 阅读 · 0 评论 -
flume拦截器的使用
例子需求说明:我们现在需要将日志中的数据读取到kafka当中且需要区分数据的,分别写入到两个不同的主题当中flume作业conf配置如下:source : taildir 实现断点续传channel : 使用kafkachannel 写入到两个主题当中sink : 没有使用拦截器: 使用i1,i2两个拦截器i1:做数据的清理, 防止脏数据,ETL拦截器i2:做头部信息添加, 分类型拦截器选择器:根据头部信息进行输出到kafka的哪个主题当中a1.channels=c1 c2a原创 2022-03-27 10:59:57 · 3126 阅读 · 0 评论 -
flume 场景配置
1.监控dir 输出到hdfs上# 设置sink channel sourcea1.sources = r1a1.sinks = k1a1.channels = c1# 设置 source 使用spooldir 监控文件目录 a1.sources.r1.type = spooldira1.sources.r1.spoolDir = /opt/module/flume/upload# 设置sinka1.sinks.k1.type = hdfsa1.sinks.k1.hdfs.p原创 2021-06-18 00:45:43 · 115 阅读 · 0 评论 -
flume的部分原理结构
flume 事务flume事务的具体工作流程:put事务:source 像channel 中推送事件时, 会有一个临时的缓冲区,如果推入事件出现异常失败,会回滚事务,数据回滚给putlist当中,再次进行尝试.推送成功会清楚putlist中缓冲的数据Take事务:缓冲区会从channel拉取事件,当拉取失败时,进行回滚,归还给channel. 拉取成功会删除掉channel缓冲区的数据flume 工作原理解析图:flume 拓扑结构①. 简单串联: flume 的数量不易过多原创 2021-06-18 00:09:28 · 280 阅读 · 1 评论 -
flume的基本使用
flume的下载:下载地址: flume官网下载修改配置文件:flume/conf/flume-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_212就直接可以使用了.使用的方式:配置文件: mkdir job将所有的配置文件就写在job下(这个job是随意创建的)flume组件: source, sink, channel作用: 主要是一个用于分布式采取,聚集日志的功能框架启动框架:cd flumebin/flume-n原创 2021-06-17 22:56:55 · 227 阅读 · 0 评论
分享