Flume和Kafka完成实时数据的采集

最新推荐文章于 2024-04-19 14:56:12 发布

留歌留歌

最新推荐文章于 2024-04-19 14:56:12 发布

阅读量7.7k

点赞数 3

分类专栏：大数据hadoop Lamda架构日志分析流水线文章标签：数据 flume kafka-消息发布与订阅 hadoop

本文链接：https://blog.csdn.net/liuge36/article/details/78597178

版权

Flume和Kafka完成实时数据的采集

写在前面
Flume和Kafka在生产环境中，一般都是结合起来使用的。可以使用它们两者结合起来收集实时产生日志信息，这一点是很重要的。如果，你不了解flume和kafka，你可以先查看我写的关于那两部分的知识。再来学习，这部分的操作，也是可以的。

实时数据的采集，就面临一个问题。我们的实时数据源，怎么产生呢？因为我们可能想直接获取实时的数据流不是那么的方便。我前面写过一篇文章，关于实时数据流的python产生器，文章地址：http://blog.csdn.net/liuge36/article/details/78596876
你可以先看一下，如何生成一个实时的数据…

思路？？如何开始呢？？

分析：我们可以从数据的流向着手，数据一开始是在webserver的，我们的访问日志是被nginx服务器实时收集到了指定的文件，我们就是从这个文件中把日志数据收集起来，即：webserver=>flume=>kafka

webserver日志存放文件位置
这个文件的位置，一般是我们自己设置的

我们的web日志存放的目录是在：
/home/hadoop/data/project/logs/access.log下面

[hadoop@hadoop000 logs]$ pwd
/home/hadoop/data/project/logs
[hadoop@hadoop000 logs]$ ls
access.log
[hadoop@hadoop000 logs]$

Flume

做flume,其实就是写conf文件，就面临选型的问题
source选型？channel选型？sink选型？

这里我们选择 exec source memory channel kafka sink

怎么写呢？
按照之前说的那样1234步骤

从官网中，我们可以找到我们的选型应该如何书写：
1）配置Source
exec source

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /home/hadoop/data/project/logs/access.log
a1.sources.r1.shell = /bin/sh -c

2）配置Channel
memory channel

a1

最低0.47元/天解锁文章

留歌留歌

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Flume和Kafka完成实时数据的采集

Flume和Kafka完成实时数据的采集写在前面 Flume和Kafka在生产环境中，一般都是结合起来使用的。可以使用它们两者结合起来收集实时产生日志信息，这一点是很重要的。如果，你不了解flume和kafka，你可以先查看我写的关于那两部分的知识。再来学习，这部分的操作，也是可以的。实时数据的采集，就面临一个问题。我们的实时数据源，怎么产生呢？因为我们可能想直接获取实时的数据流不是那么的
复制链接

扫一扫

专栏目录