flume+kafka+storm集群整合

最新推荐文章于 2021-03-24 14:24:07 发布

3分钟秒懂大数据

最新推荐文章于 2021-03-24 14:24:07 发布

阅读量727

点赞数 1

分类专栏： storm

本文链接：https://blog.csdn.net/weixin_38201936/article/details/89495438

版权

storm 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.在集群上先启动kafka以及zookeeper

2.进行kafka与flume整合博主经过好几个小时的研究，最终才整合成功，主要原因在于flume 和kafka有的存在版本冲突，如果你按照我下面的两个版本进行整合，将不会出错，其他版本不保证！安装教程，查看博主的kafka和flume安装步骤即可。

kafka版本为 kafka_2.11-0.8.2.2.tgz, 链接：https://pan.baidu.com/s/1nuW7-ZXvCRJKLLlDm-CpLg
提取码：n98u

flume版本为 apache-flume-1.6.0-bin.tar.gz 链接：https://pan.baidu.com/s/1itiTPysWgE-_kYfVbumfww
提取码：dzzl

3.先看一下集群以及会话窗口

上面一共打开了三个集群，分别为mini1,mini2,mini3 但是打开了9个会话窗口，可以将会话窗口的名称进行修改，方便自己观看

1 data-Source ---log 对应 mini1 集群

2 flume 对应 mini1 集群

3 kafka1 对应 mini1 集群

4 kafka2 对应 mini2 集群

5 kafka3 对应 mini3 集群

6 consumer 对应 mini1 集群

7 storm1 对应 mini1集群

8 storm2 对应 mini2 集群

9 storm3 对应 mini3 集群

4.原理

flume 是一个日志采集框架，kafka是个消息队列，分为生产者，topic，消费者，storm是个计算框架

flume采集到的日志放入到kafka的生产者队列中，由storm进行消费，对它进行计算

5.步骤

1，准备日志数据

2.由flume进行采集

3.flume与kafka进行连接

根据上面步骤，我们现在进行具体操作

1，准备日志数据

可以在data-Source ---log 对应 mini1 集群下进行操作

1）在log日志目录下新建一个1.log日志，然后写一个for循环动态生成几万条数据放到1.log日志中

2）写for循环脚本生产数据放到1.log日志中 for循环脚本的文件命名为 click_log_out.sh ,该脚本我存放在flume/conf/myconf目录下：

脚本代码如下：

for((i=0;i<=500000;i++));
do echo "message-"+$i >> /home/hadoop/log/1.log;
done

3）启动脚本往1.log日志中存放数据命令如下：

sh click_log_out.sh  /home/hadoop/log/1.log

2.由flume进行采集

可以在flume会话窗口进行操作对应 mini1 集群

由图片可以看到：flume采集日志数据时，分为Source,Channel,Sink三部分，Source负责获取日志数据，Channel是一个管道，用来传输数据，Sink是传输目的地，用来指定他的对接口是谁，这里Sink对接的是Kafka的topic

1）根据上图可知，现在编写配置文件，用来指定flume到kafka连接的路径配置文件内容如下：配置文件名为：exec.conf, 也是存放在flume/conf/myconf目录下

a1.sources = r1
a1.channels = c1
a1.sinks = k1


a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /home/hadoop/log/1.log
a1.sources.r1.channels = c1

a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 100


a1.sinks.k1.type =org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.topic=orderMq
a1.sinks.k1.brokerList=mini1:9092
a1.sinks.k1.requiredAcks=1
a1.sinks.k1.batchSize=20
a1.sinks.k1.channel=c1

3.flume与kafka进行连接

1）配置文件准备好之后，启动配置文件，就可以将flume与kafka进行连接，将日志数据传给生产者，启动命令如下：

 bin/flume-ng agent -n a1 -c conf -f conf/myconf/exec.conf -Dflume.root.logger=INFO,console

启动成功之后，就可以看到连接成功，数据已传给生产者。如果没有使用上述版本，一般在这块会报错。

4.启动kafka的消费者窗口，查看效果

启动命令为：

sh bin/kafka-console-consumer.sh --zookeeper mini1:2181 --from-beginning --topic orderMq

3分钟秒懂大数据

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
flume+kafka+storm集群整合

1.在集群上先启动kafka以及zookeeper2.进行kafka与flume整合博主经过好几个小时的研究，最终才整合成功，主要原因在于flume 和kafka有的存在版本冲突，如果你按照我下面的两个版本进行整合，将不会出错，其他版本不保证！安装教程，查看博主的kafka和flume安装步骤即可。kafka版本为kafka_2.11-0.8.2.2.tgz, 链接...
复制链接

扫一扫