小案例 Flume整合Kafka

最新推荐文章于 2022-10-12 11:13:34 发布

little_newBee

最新推荐文章于 2022-10-12 11:13:34 发布

阅读量392

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/little_newBee/article/details/79916692

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近学习了一下大数据，做一个简答的case，使用spark streaming读取日志文件并进行分析，使用的是比较流行的flume+kafka进行数据的读取，sparkstreaming从kafka中读取即可。这里简单记录一下flume整合kafka的流程。本文统一采用cloudera的cdh5.7.0版本，不知道的小伙伴这里提供一下网址cloudera

前提提醒

部署之前先进行一些说明。下载好以下的安装包解压后，首先应进行PATH与ZK_HOME,KAFKA_HOME,FLUME_HOME,JAVA_HOME环境变量的配置，这些配置在下面的介绍中将不会出现，因此，敲黑板！！！！，提前设置一下，有备无患。。。。
提前给你的机器设置好一个hostname，尽量不要使用localhost，因为程序最最终不会是单机部署，并且也会在测试时涉及到scala，java等代码的远程访问，可能会出现connection refuse的错误，确保网络畅通的情况下，考虑一下域名问题。所以为了避免这个问题，尽量提前设置好。

安装Zookeeper（Kafka的需要）

这里写图片描述

下载好之后解压：
    tar -zxvf zookeeper.tar.gz
配置一下config文件：
    进入到zookeeper的conf目录下面，发现并没有zoo.cfg,但是有一个zoo_sample.cfg
    ,复制它并重新命名为zoo.cfg。我这里由于只使用了一个zookeeper，因此不会配置很多，zookeeper的文档中对于多个zookeeper写的比较详细。
    打开之后修改一下dataDir，如下图：

这里写图片描述

好了，这样就配置好了，确实没修改啥……

启动它吧：

进入bin目录，找到zkServer.sh
    ./zkServer.sh start
    这样就启动完成了。

zookeeper的配置就到这。毕竟不是重点

配置Kafka

到官网上下载，kafka并不在cdh的下载目录里面。
下载下来解压缩，命令就省略了，特别的简单，与上面是一致的解压命令。
进入到kafka的主目录接着进入到config目录，编辑server.properties,只需修改log.dirs目录，如图，修改成自己想要的目录即可。

这里写图片描述

启动kafka服务,在bin目录下面：
     bin/kafka-server-start.sh config/server.properties  &
     最后的&表示后台运行。
创建一个topic
    bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
查看已经存在的topic
    bin/kafka-topics.sh --list --zookeeper localhost:2181
[
启动生产者
    bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
启动一个消费者
    bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test [--from-beginning]  --from-beginning表示每次都会将生产者的信息全部发过来，不加则是从消费者上线开始将之后生产的消息发过来。
]   
注：[] 是补充的，本项目并不需要启动生产和消费者。创建topic时有--replication参数，代表副本的意思，一般情况下有几个kafka节点就写几，有点主从复制的意思，为了保证宕机时数据的完整。--partitions参数代表 分区个数，这里涉及到kafka的一些概念。kafka将一个分区的数据发送给同一个group的一个consumer中。也就是一个group中有一个consumer接收到消息。group是通过指定的groupid进行区分的。id相同就在一个group。

点击了解partitions参数

flume配置

先介绍它里面的几个名词：
1. agent：三个组件的整体
2. source：数据源
3. channel：管道，读取数据之后存储的地方
4. sink：数据的目的地

配置flume-env.sh
```
export JAVA_HOME=自己的路径
```

编写一个conf文件，这里举例使用example.conf ,（摘抄自官方文档，example.conf是自己创建的空文件）

a1.sources=r1
a1.channels=c1
a1.sinks=k1

a1.sources.r1.type=netcat
a1.sources.r1.bind=localhost
a1.sources.r1.port=44444

a1.sinks.k1.type = logger

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

配置整合 flume-kafka

再来分析一下数据的流程（下面的exec等都是参考了官方文档找到的，我在（）里面做了大概的解释，如果不是很懂得同学可以去官方文档看一下）：
exec source（文本类，即使用读取文件的命令来读取source）——>avro sink（网络连接）——>avro source——>kafka sink（这里相当于kafka的producer）——> kafka consumer(可以使spark streaming去消费topic里面的信息)

每一个source+sink+channel=agent，综上所述，需要启动两个agent进行数据交互，并且事先要启动kafka（kafka需要zookeeper）
以上面标准的配置信息为基础
查看官方文档并进行自定义添加：
1. exec source
    a1.sources = r1
    a1.channels = c1
    a1.sources.r1.type = exec
    a1.sources.r1.command = tail -F /var/log/secure
    a1.sources.r1.channels = c1
    文档中给出如上的核心配置，我们挑出标准配置中没有的特定配置，添加上即可。

    exec.sources=r2
    exec.channels=c2
    exec.sinks=k2

    exec.sources.r2.type=exec
    exec.sources.r2.command=tail -F /home/hadoop/data/analysisData.txt
    exec.sources.r2.shell=/bin/sh -c

    exec.sinks.k2.type = logger

    exec.channels.c2.type = memory
    exec.channels.c2.capacity = 1000
    exec.channels.c2.transactionCapacity = 100

    exec.sources.r2.channels = c2
    exec.sinks.k2.channel = c2
    这样就完成了。下面的也像这样操作就好了。

2. avro sink
         exec.sources=r2
        exec.channels=c2
        exec.sinks=k2

        exec.sources.r2.type=exec
        exec.sources.r2.command=tail -F /home/hadoop/data/analysisData.txt
        exec.sources.r2.shell=/bin/sh -c

        exec.sinks.k2.type = avro
        exec.sinks.k2.hostname=spark
        exec.sinks.k2.port=44444

        将此内容合并后，就得到了如上的配置。      
3. avro source
4. kafka sink
5. 这样，1，2在一个文件中，3，4在一个文件中就可以了。

这里教一下怎么找文档：

这里写图片描述

跟我一样使用cdh版本的同学使用如下链接找到文档：

cdh文档列表

这里写图片描述

启动flume

1. bin/flume-ng agent --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/example1.conf --name exec -Dflume.root.logger=INFO,console

2. bin/flume-ng agent --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/example2.conf --name kafka -Dflume.root.logger=INFO,console

这里要注意的是，一般启动是先启动带服务的。从配置中可以看出，涉及kafka的配置中是会启动服务的，可以优先启动它。也就是编号2。
没有报错后可以启动一个kafka的consumer进行测试。
开启一个终端对监听的日志文件的修改。
    echo hello world >> log.txt   -----》这里写你自己监听的文件名。
可以看到consumer的终端下面接收到了数据，那么一个简单的继承就写完了。

little_newBee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小案例 Flume整合Kafka

最近学习了一下大数据，做一个简答的case，使用spark streaming读取日志文件并进行分析，使用的是比较流行的flume+kafka进行数据的读取，sparkstreaming从kafka中读取即可。这里简单记录一下flume整合kafka的流程。本文统一采用cloudera的cdh5.7.0版本，不知道的小伙伴这里提供一下网址cloudera前提提醒部署之前先进行一些说明。...
复制链接

扫一扫