flume和kafka整合——采集实时日志落地到hdfs

最新推荐文章于 2023-11-17 00:45:07 发布

奋斗的IT小白菜

最新推荐文章于 2023-11-17 00:45:07 发布

阅读量1.8k

点赞数

分类专栏： Flume kafka

本文链接：https://blog.csdn.net/qq_36470898/article/details/109274292

版权

flume和kafka整合——采集实时日志落地到hdfs

一、采用架构
二、前期准备
三、编写配置文件

一、采用架构

在这里插入图片描述

flume 采用架构
exec-source + memory-channel + kafka-sink
kafka-source + memory-channel + hdfs-sink
模拟需求：
使用flume实时监听日志文件，并将采集数据传输到kafka，再从kafka采集数据到flume，最后落地到HDFS。

二、前期准备

2.1 虚拟机配置

操作系统	主机名	IP	flume	kafka
Ubuntu	slave1	192.168.0.104	flume-kafka	集群部署
Ubuntu	slave2	192.168.0.105	无	集群部署
Ubuntu	slave3	192.168.0.106	kafka-flume	集群部署

slave1部署flume实时监听日志文件
slave3部署flume实时消费kafka数据
kafka采用3台虚拟机集群部署方式

2.2 启动hadoop集群

因为需要将数据存储到HDFS，需要hadoop集群。这里使用Hadoop-2.7.6版本。不会集群的可以参考这篇：Hadoop-2.7.6 集群部署搭建

2.3 启动zookeeper集群，kafka集群

kafka单节点启动也可以。可以参考这篇：Kafka入门集群部署

三、编写配置文件

3.1 slave1创建flume-kafka.conf

cd /opt/apps/apache-flume-1.9.0-bin/job
vim flume-kafka.conf

在flume-kafka.conf输入

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the sources
# exec即execute执行命令
a1.sources.r1.type = exec
# 要执行的命令
a1.sources.r1.command = tail -F /data/sdk.log
# 执行shell脚本的绝对路径
a1.sources.r1.shell = /bin/bash -c

# Describe the sink
a1.sinks