小案例 Flume整合Kafka

最近学习了一下大数据,做一个简答的case,使用spark streaming读取日志文件并进行分析,使用的是比较流行的flume+kafka进行数据的读取,sparkstreaming从kafka中读取即可。这里简单记录一下flume整合kafka的流程。本文统一采用cloudera的cdh5.7.0版本,不知道的小伙伴这里提供一下网址cloudera

前提提醒

部署之前先进行一些说明。下载好以下的安装包解压后,首先应进行PATH与ZK_HOME,KAFKA_HOME,FLUME_HOME,JAVA_HOME环境变量的配置,这些配置在下面的介绍中将不会出现,因此,敲黑板!!!!,提前设置一下,有备无患。。。。
提前给你的机器设置好一个hostname,尽量不要使用localhost,因为程序最最终不会是单机部署,并且也会在测试时涉及到scala,java等代码的远程访问,可能会出现connection refuse的错误,确保网络畅通的情况下,考虑一下域名问题。所以为了避免这个问题,尽量提前设置好。

安装Zookeeper(Kafka的需要)

这里写图片描述

下载好之后解压:
    tar -zxvf zookeeper.tar.gz
配置一下config文件:
    进入到zookeeper的conf目录下面,发现并没有zoo.cfg,但是有一个zoo_sample.cfg
    ,复制它并重新命名为zoo.cfg。我这里由于只使用了一个zookeeper,因此不会配置很多,zookeeper的文档中对于多个zookeeper写的比较详细。
    打开之后修改一下dataDir,如下图:

这里写图片描述

好了,这样就配置好了,确实没修改啥……

启动它吧:

进入bin目录,找到zkServer.sh
    ./zkServer.sh start
    这样就启动完成了。

zookeeper的配置就到这。毕竟不是重点

配置Kafka

到官网上下载,kafka并不在cdh的下载目录里面。
下载下来解压缩,命令就省略了,特别的简单,与上面是一致的解压命令。
进入到kafka的主目录接着进入到config目录,编辑server.properties,只需修改log.dirs目录,如图,修改成自己想要的目录即可。

这里写图片描述

启动kafka服务,在bin目录下面:
     bin/kafka-server-start.sh config/server.properties  &
     最后的&表示后台运行。
创建一个topic
    bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
查看已经存在的topic
    bin/kafka-topics.sh --list --zookeeper localhost:2181
[
启动生产者
    bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
启动一个消费者
    bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test [--from-beginning]  --from-beginning表示每次都会将生产者的信息全部发过来,不加则是从消费者上线开始将之后生产的消息发过来。
]   
注:[] 是补充的,本项目并不需要启动生产和消费者。创建topic时有--replication参数,代表副本的意思,一般情况下有几个kafka节点就写几,有点主从复制的意思,为了保证宕机时数据的完整。--partitions参数代表 分区个数,这里涉及到kafka的一些概念。kafka将一个分区的数据发送给同一个group的一个consumer中。也就是一个group中有一个consumer接收到消息。group是通过指定的groupid进行区分的。id相同就在一个group。

点击了解partitions参数

flume配置

先介绍它里面的几个名词:
1. agent:三个组件的整体
2. source:数据源
3. channel:管道,读取数据之后存储的地方
4. sink:数据的目的地

  1. 配置flume-env.sh

    export JAVA_HOME=自己的路径
    
  2. 编写一个conf文件,这里举例使用example.conf ,(摘抄自官方文档,example.conf是自己创建的空文件)

    a1.sources=r1
    a1.channels=c1
    a1.sinks=k1
    
    a1.sources.r1.type=netcat
    a1.sources.r1.bind=localhost
    a1.sources.r1.port=44444
    
    a1.sinks.k1.type = logger
    
    a1.channels.c1.type = memory
    a1.channels.c1.capacity = 1000
    a1.channels.c1.transactionCapacity = 100
    a1.sources.r1.channels = c1
    a1.sinks.k1.channel = c1
    

配置整合 flume-kafka

再来分析一下数据的流程(下面的exec等都是参考了官方文档找到的,我在()里面做了大概的解释,如果不是很懂得同学可以去官方文档看一下):
exec source(文本类,即使用读取文件的命令来读取source)——>avro sink(网络连接)——>avro source——>kafka sink(这里相当于kafka的producer)——> kafka consumer(可以使spark streaming去消费topic里面的信息)

每一个source+sink+channel=agent,综上所述,需要启动两个agent进行数据交互,并且事先要启动kafka(kafka需要zookeeper)
以上面标准的配置信息为基础
查看官方文档并进行自定义添加:
1. exec source
    a1.sources = r1
    a1.channels = c1
    a1.sources.r1.type = exec
    a1.sources.r1.command = tail -F /var/log/secure
    a1.sources.r1.channels = c1
    文档中给出如上的核心配置,我们挑出标准配置中没有的特定配置,添加上即可。

    exec.sources=r2
    exec.channels=c2
    exec.sinks=k2

    exec.sources.r2.type=exec
    exec.sources.r2.command=tail -F /home/hadoop/data/analysisData.txt
    exec.sources.r2.shell=/bin/sh -c

    exec.sinks.k2.type = logger

    exec.channels.c2.type = memory
    exec.channels.c2.capacity = 1000
    exec.channels.c2.transactionCapacity = 100

    exec.sources.r2.channels = c2
    exec.sinks.k2.channel = c2
    这样就完成了。下面的也像这样操作就好了。

2. avro sink
         exec.sources=r2
        exec.channels=c2
        exec.sinks=k2

        exec.sources.r2.type=exec
        exec.sources.r2.command=tail -F /home/hadoop/data/analysisData.txt
        exec.sources.r2.shell=/bin/sh -c

        exec.sinks.k2.type = avro
        exec.sinks.k2.hostname=spark
        exec.sinks.k2.port=44444

        将此内容合并后,就得到了如上的配置。      
3. avro source
4. kafka sink
5. 这样,1,2在一个文件中,3,4在一个文件中就可以了。

这里教一下怎么找文档:

这里写图片描述

这里写图片描述

这里写图片描述

跟我一样使用cdh版本的同学使用如下链接找到文档:

cdh文档列表

这里写图片描述

这里写图片描述

启动flume

1. bin/flume-ng agent --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/example1.conf --name exec -Dflume.root.logger=INFO,console

2. bin/flume-ng agent --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/example2.conf --name kafka -Dflume.root.logger=INFO,console

这里要注意的是,一般启动是先启动带服务的。从配置中可以看出,涉及kafka的配置中是会启动服务的,可以优先启动它。也就是编号2。
没有报错后可以启动一个kafka的consumer进行测试。
开启一个终端对监听的日志文件的修改。
    echo hello world >> log.txt   -----》这里写你自己监听的文件名。
可以看到consumer的终端下面接收到了数据,那么一个简单的继承就写完了。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值