Flume案例2-实时监控单个追加文件

ordo120

已于 2024-04-26 08:56:24 修改

阅读量1.4k

点赞数 1

文章标签： flume 大数据

于 2024-04-25 14:29:03 首次发布

本文链接：https://blog.csdn.net/ordo120/article/details/138188416

版权

（1）Flume 要想将数据输出到 HDFS，依赖 Hadoop 相关 jar 包
检查/etc/profile 文件，确认 Hadoop 和 Java 环境变量配置正确

JAVA_HOME=/opt/program/jdk
export PATH=$PATH:$JAVA_HOME/bin
HADOOP_HOME=/opt/program/ha/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

（2）…/flume/job，创建 flume-file-hdfs.conf 文件

 vi flume-file-hdfs.conf

注：要想读取 Linux 系统中的文件，就得按照 Linux 命令的规则执行命令。由于 Hive日志在 Linux 系统中所以读取文件的类型选择：exec 即 execute 执行的意思。表示执行Linux 命令来读取文件。
添加如下内容:
在这里插入图片描述

注意：对于所有与时间相关的转义序列，Event Header 中必须存在以 “timestamp”的
key（除非 hdfs.useLocalTimeStamp 设置为 true，此方法会使用 TimestampInterceptor 自
动添加 timestamp）。
a3.sinks.k3.hdfs.useLocalTimeStamp = true

（3）运行 Flume

 bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

（4）更改test.log文件。vi test.log 任意修改文件内容并保存。
（5）在 HDFS 上查看文件，看到HDFS下有flume文件夹即可。
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ordo120

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Flume 学习 —— 案例四：Flume 监听本地文件，并将文件分别写至 HDFS 和本地文件夹中

wangyang163wy的博客

03-06

5073

案例四：Flume 监听本地文件，并将文件分别写至 HDFS 和本地文件夹中结构结构中有3个 Agent，分别是监控 File 文件的 a1，接收 a1 的 s1 并写入本地文件夹的 a3 和接收 a1 的 s2 并上传至 HDFS 的 a2 创建配置文件 1.在这里，我使用 Flume 监听的是 /usr/wang/data/Example4.txt 文件 2.在 flume 的 conf...

flume学习二 --- 案例

weixin_56541207的博客

01-01

1025

flume案例

7 条评论您还未登录，请先登录后发表或查看评论

在FinalShell中使用Flume实现数据监听的实践教程

a22abc00的博客

10-15

163

代码为flume-ng agent -n a1 --conf-file nc-flume.conf -Dflume.root.logger=INFO,console。(1).Agent：Flume Agent是数据采集的主要组件，负责监听指定的数据源，将数据传输到Channel中，并最终将数据写入到目标位置。(4).Sink：Sink是Flume Agent中用于将数据从Channel中发送到目标位置的组件，可以是文件、网络端口、数据库等。(2).数据聚合：将采集的数据聚合到指定的Channel中。

Flume-数据监控

m0_57697768的博客

03-19

1170

flume事务，flume组件结构，flumeSource类型

Flume监听多个文件目录，并根据文件名称不同，输出到kafka不同topic中

qinqinde123的博客

12-01

1943

监听多数据源目录，并根据文件名称不一样，输出到kafka不同topic中

Flume（二）【Flume 进阶使用】

最新发布

功不唐捐，玉汝于成

02-16

1479

flume 进阶使用、复制、多路复用、负载均衡、故障转移、自定义拦截器、source、sink

Flume经典案例之实时监控单个追加文件（保姆级教程）

wanjialin的博客

12-26

846

案例说明： 1、以日志的形式输出 2、输出到hdfs中操作步骤：一、以日志的形式输出 1、创建file-flume-logger.conf 内容如下： a2.sources=r1 a2.channels=c1 a2.sinks=k1 a2.sources.r1.type=exec a2.sources.r1.command=tail -f /opt/soft/flume160/conf/KB15conf/flumefile.log a2.channels.c1.type=memory a2.chan

Flume经典案例之实时监控多个新文件（保姆级教程）

wanjialin的博客

12-26

853

准备工作： 1、准备多个大文件，以备后面使用 2、提前创建好目录和文件上传至linux中操作步骤： 1、首先先将我们要操作的文件拷贝到指定的文件夹下，方便一会使用命令和写配置文件命令cp events.csv flumelogfile/events/events_2021-12-26.csv 2、创建events-flume-logger.conf 内容如下： events.sources=eventsSource events.channels=eventsChannel events.sinks=e

Flume案例二：实时监控单个追加文件(tail -f 日志)(exec source)

扛麻袋的少年的博客

06-24

1401

Flume案例二：实时监控单个追加文件(tail -f 日志)（选型：exec source + memory channel + logger sink）

Apache Flume(概述->Flume安装部署->Flume简单案例)

汉子一枚

12-05

1528

1．概述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume在删除自己缓存的数据。 Flume支持定制各类数据...

Flume

m0_37741059的博客

02-09

313

目录概述基础架构 Flume事务 Flume Agent 内部原理 Flume 拓扑结构开发案例自定义 Intercepter 自定义Source 自定义Sink Flume数据流监控 Flume参数调优 Flume的事务机制 Flume采集数据会丢失吗? 概述高可用、高可靠、分布式的海量日志采集、聚合和传输的系统，基于流式架构，灵活简单；主要作用是实时读取服务器本地磁盘的数据，将数据写入HDFS。基础架构 Agent：是一个JVM进...

第3章 Flume进阶

三成的博客

09-14

183

flume

Flume-原理详解+参数详解+案例演示

weixin_42151880的博客

08-17

926

What Flume？ Flume 简介： Flume用于将多种来源的日志以流的方式传输至Hadoop或者其它目的地（一种可靠、可用的高效分布式数据收集服务） Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复批处理：处理离线数据，冷数据。单个处理数据量大，处理速度比流慢。流处理：在线，实时产生的数据。单次处理的数据量小，但处理速度更快。 Flume 架构： Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)，为了保证传输过程一定成

【Flume中间件】（4）实时监控一个文件目录下的多个文件

CSDN 精品推荐

06-09

616

实时监控一个文件目录下的多个文件有时我们不需要监控一个文件的追加数据，而是进行检测一个文件目录下是否有新的文件，这是就可以采用spool源进行替代exec那种方式，其实用exec也可以，将命令换一下，但是可能效率较低，因为是一行一行的读取嘛。采用spool源就可以指定文件目录进行监控，它的作用机制是当我们向该文件夹中传输文件时，flume会将该文件传到sink，然后flume会将传进来的数据加个后缀，用来区别该文件是否上传过，所以当我们把一个文件传输进来后，再次进行更改该文件，flume不会监听的到，因

Flume监测爬虫文件夹内容并上传到HDFS

m0_52940881的博客

12-23

991

前面文章提到的爬虫程序编写完成后，在虚拟机上使用python3 ****.py运行，程序中的文件输出路径为/export/nocv_data。这里还采取了负载均衡的策略，也就是我们规定一个组（这里三台），组内一台监测文件夹并将数据包装成事件送出，由另外两台虚拟机上传到hdfs中。另外为了防止数据过多对本地文件占用等问题，我们需要设置deletePolicy参数，将文件采集之后即删除。启动顺序是，先第二级后第一级。之后我们启动flume后，运行爬虫程序，这样就可以实现flume试试上传数据到hdfs上。

【Flume】flume文件监控的source组件开发，增量传输文件内容，支持断点续传功能

三也_攻城狮

04-09

6773

基于flume-ng中原有exec的source类型，通过tail依赖于操作系统去监听文件内容变化，其次，不支持断点续传的功能，特此，自行开发了一个组件，大家可以看看，一起探讨： https://github.com/cwtree/flume-filemonitor-source 望各位不吝指教！

【四】Flume使用：监控文件实时采集新增数据输出到控制台

Sid小杰的博客

07-13

8429

agent选择：exec source + memory channel + logger sinkexec source 运行一个给定的unix命令memory channel channel中的数据放在内存中logger sink 最终把采集到的数据打印到控制台上创建测试用的日志文件mkdir /app/flume/testDatacd /app/flume/testDatatouch tes...

Flume监控文件夹

张鑫的博客

08-03

4062

一、需求分析使用flume监听整个目录的文件二、上传jar包，具体步骤见上一篇https://blog.csdn.net/student__software/article/details/81394222 三、配置文件 1、创建：$ touch flume-dir-hdfs.conf 2、编辑内容：解析重要内容：①文件夹的source类型是spooldir ,具体配置在文档...

flume监控文件变化

xiaoliuxxs

09-12

589

第四讲