Flume应用案例之两台服务器之间进行实时数据采集

最新推荐文章于 2024-01-24 03:51:04 发布

kingloneye

最新推荐文章于 2024-01-24 03:51:04 发布

阅读量660

点赞数

分类专栏：大数据 Flume 文章标签： hadoop flume

本文链接：https://blog.csdn.net/weixin_38887752/article/details/106736089

版权

大数据同时被 2 个专栏收录

96 篇文章 3 订阅

订阅专栏

Flume

6 篇文章 0 订阅

订阅专栏

需求：将A服务器上的日志实时采集到B服务器

说明：如下图
机器A对应本人hadoop01虚拟机，
机器B对应本人hadoop02虚拟机
机器A监控日志文件，向机器A中输入数据，avro sink把新产生的日志输出到对应的avro source 指定的hostname 和port上，通过avro source对应的agent将日志输出到控制台(kafka)
在这里插入图片描述
技术选型：
exec source + memory channel + avro sink （配置在机器A/hadoop01上）
avro source + memory channel + logger sink （配置在机器B/hadoop02上）

vim exec-memory-avro.conf hadoop01机器

#定义这个agent中各组件的名字
exec-memory-avro.sources = exec-sources
exec-memory-avro.sinks = avro-sink
exec-memory-avro.channels = memory-channel

exec-memory-avro.sources.exec-sources.type = exec
exec-memory-avro.sources.exec-sources.command = tail -f /opt/bigdatas/flumedata.log
exec-memory-avro.sources.exec-sources.shell = /bin/sh -c

# 指定hadoop02
exec-memory-avro.sinks.avro-sink.type = avro
exec-memory-avro.sinks.avro-sink.hostname = hadoop02
exec-memory-avro.sinks.avro-sink.port = 44444

exec-memory-avro.channels.memory-channel.type = memory

exec-memory-avro.sources.exec-sources.channels = memory-channel
exec-memory-avro.sinks.avro-sink.channel = memory-channel

vim avro-memory-logger.conf hadoop02服务器

#定义这个agent中各组件的名字
avro-memory-logger.sources = avro-sources
avro-memory-logger.sinks = logger-sink
avro-memory-logger.channels = memory-channel

avro-memory-logger.sources.avro-sources.type = avro
avro-memory-logger.sources.avro-sources.bind = hadoop02
avro-memory-logger.sources.avro-sources.port = 44444

avro-memory-logger.sinks.logger-sink.type = logger

avro-memory-logger.channels.memory-channel.type = memory

avro-memory-logger.sources.avro-sources.channels = memory-channel
avro-memory-logger.sinks.logger-sink.channel = memory-channel

先启动hadoop02机器 avro-memory-logger

./flume-ng agent --name avro-memory-logger --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/avro-memory-logger.conf -Dflume.root.logger=INFO,console

再启动hadoop01机器 exec-memory-avro

./flume-ng agent --name exec-memory-avro --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/exec-memory-avro.conf -Dflume.root.logger=INFO,console

另外打开hadoop01服务器：输入数据到日志文件里
在这里插入图片描述
打开hadoo02可以看到数据从hadoop01机器流向hadoop02机器：

kingloneye

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Flume应用案例之两台服务器之间进行实时数据采集

需求：将A服务器上的日志实时采集到B服务器说明：如下图机器A对应本人hadoop01虚拟机，机器B对应本人hadoop02虚拟机机器A监控日志文件，向机器A中输入数据，avro sink把新产生的日志输出到对应的avro source 指定的hostname 和port上，通过avro source对应的agent将日志输出到控制台(kafka)技术选型：exec source + memory channel + avro sink （配置在机器A/hadoop01上）avro sour
复制链接

扫一扫

专栏目录