
Flume
文章平均质量分 55
以Flume为主
飝鱻.
这个作者很懒,什么都没留下…
展开
-
【Kafka】使用Flume对接Kafka
使用Flume对接Kafka本篇需要用到Kafka与Flume,需要提前安装好两个软件,若还没安装,推荐先浏览下面推荐内容Kafka的安装与基本命令的使用.Flume的初步认识.思考:为什么要将Kafka与Flume对接起来?答:在实际工作中,Flume主要是用来采集日志文件的,并且用户文件一般不是单单的只给一个用户,可能会发送给多个用户。发送给的用户数可能也是不固定的,需要随时变换,而Flume却不能做到动态的增加、减少,所以我们可以使用Kafka配合着Flume来解决这一问题。在原创 2021-12-31 07:05:46 · 934 阅读 · 0 评论 -
【Flume】Flume多数据源汇总
Flume多数据源汇总实现Flume1Flume2Flume3需求Flume1监控本地文件Flume2监控端口数据Flume3接收Flume1和Flume2的日志,并将其上传至HDFS流程图实现Flume1a1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = execa1.sources.r1.command = tail -F /home/data/flume/loga1.chann原创 2021-03-24 15:57:27 · 817 阅读 · 0 评论 -
【Flume】Flume单数据源多出口(sink组)
需求:使用Flume-1监控端口,Flume-1将变动内容传递给Flume-2和Flume-3,Flume-2和Flume-3在控制台输出流程图配置文件Flume1a1.sources = r1a1.channels = c1a1.sinkgroups = g1a1.sinks = k1 k2# Describe/configure the sourcea1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sour原创 2021-03-12 20:16:11 · 380 阅读 · 0 评论 -
【Flume】单数据源多出口案列(选择器)
单数据源多出口使用选择器使用选择器原创 2021-03-11 20:05:16 · 363 阅读 · 0 评论 -
【Flume】使用Flume监控目录,并将数据存储至HDFS
使用Flume监控目录,并将数据存储至HDFSconf文件# 定义source、sinks、channels并且重命名a1.sources = k1a1.sinks = r1a1.channels = c1# 选择sources方法为spooldir来监控文件夹a1.sources.r1.type = spooldir# 确定监控的文件夹a1.sources.r1.spoolDir=/home/data/flume# 当文件背上传之后添加后缀a1.sources.r1.fileSu原创 2021-03-09 17:18:37 · 2550 阅读 · 0 评论 -
【Flume】使用Flume监控文件,并将文件上传至HDFS
【Flume】使用Flume监控文件,并将文件上传至HDFS编写conf文件# 定义source、sinks、channels并且重命名a1.sources = k1a1.sinks = r1a1.channels = c1# 选择sources方法为exec来监控文件a1.sources.k1.type = exec# 输入监控文件的路径# 其中F大写代表着即使监控的文件被删除了,只要再次生成文件名一样的文件,会再次监控此文件# f小写意味着只要监控文件删除,就不再监控a1.sou原创 2021-03-08 17:55:18 · 2236 阅读 · 0 评论 -
Flume练习(一)
Flume练习监控端口数据需求分析步骤实现监控单个文件,然后将数据传输到HDFS上需求实现步骤监控文件夹,将数据传输到HDFS需求实现步骤单数据源多出口案例(选择器)需求实现步骤单数据源多出口案例(Sink组)需求步骤实现多数据源汇总需求步骤实现监控端口数据需求分析将数据发送到本机的44444端口,使用Flume监控本机的端口,将输入的数据跳过sink写道控制台步骤实现安装netcat工具sudo yum install -y nc判断44444端口是否被占用sudo netst原创 2021-01-06 11:53:47 · 762 阅读 · 0 评论 -
Flume自定义sink
Flume自定义sink1.介绍Sink不断地轮询Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。Sink是完全事务性的。在从Channel 批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。Sink组件目的地包括hdfs、logger、avro、thrift原创 2021-01-05 19:51:17 · 431 阅读 · 0 评论 -
Flume自定义Source
Flume自定义Source1.介绍Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、 jms、spooling directory、netcat、sequencegenerator、syslog、http、legacy。官方提供的source类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些source。实现相应方法:MySource需要继承Abstract原创 2021-01-05 19:23:24 · 254 阅读 · 0 评论 -
Flume自定义拦截器
Flume自定义拦截器代码实操需求1.案列需求使用Flume采集服务器的本地日志,需要按照日志类型的不同,将不同种类的的日志发送到不同的分析系统2.需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到Flume拓扑结构中的Multiplexing 结构, Multiplexing的原理是,根据event中 Header的某个key的值,将不同的event发送到不同的Channel中,所以我们需要自定义一个Interceptor,为不同类原创 2021-01-05 16:57:52 · 235 阅读 · 0 评论 -
Flume进阶
Flume进阶Flume流程概述事务流程Agent内部原理Flume拓补结构简单串联复制和多路复用负载均衡和故障转移聚合Flume练习单数据源多出口案列(选择器)单数据源多出口案列(sink组)多数据源(聚合组)Flume流程概述事务流程Agent内部原理Flume拓补结构简单串联这种模式是将多个flume顺序连接起来了,从最初的source开始到最终sink 传送的目的存储系统。此模式不建议桥接过多的flume 数量,flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flum原创 2021-01-05 15:37:12 · 584 阅读 · 0 评论 -
Flume的初步认识
Flume的初步认识Flume的概述Flume基础架构Flume入门案列实现步骤实时监控文件监控单个文件,并且输出到控制台监控单个文件,并且上传到HDFS监控一个文件夹,上传至HDFSFlume的概述Flume的定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统.Flume基于流式架构,灵活简单。Flume的优点1、可以和任意存储进程集成。2、输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。3、flume中的原创 2021-01-04 20:16:48 · 569 阅读 · 0 评论