最近学习了一下大数据,做一个简答的case,使用spark streaming读取日志文件并进行分析,使用的是比较流行的flume+kafka进行数据的读取,sparkstreaming从kafka中读取即可。这里简单记录一下flume整合kafka的流程。本文统一采用cloudera的cdh5.7.0版本,不知道的小伙伴这里提供一下网址cloudera
前提提醒
部署之前先进行一些说明。下载好以下的安装包解压后,首先应进行PATH与ZK_HOME,KAFKA_HOME,FLUME_HOME,JAVA_HOME环境变量的配置,这些配置在下面的介绍中将不会出现,因此,敲黑板!!!!,提前设置一下,有备无患。。。。
提前给你的机器设置好一个hostname,尽量不要使用localhost,因为程序最最终不会是单机部署,并且也会在测试时涉及到scala,java等代码的远程访问,可能会出现connection refuse的错误,确保网络畅通的情况下,考虑一下域名问题。所以为了避免这个问题,尽量提前设置好。
安装Zookeeper(Kafka的需要)
下载好之后解压:
tar -zxvf zookeeper.tar.gz
配置一下config文件:
进入到zookeeper的conf目录下面,发现并没有zoo.cfg,但是有一个zoo_sample.cfg
,复制它并重新命名为zoo.cfg。我这里由于只使用了一个zookeeper,因此不会配置很多,zookeeper的文档中对于多个zookeeper写的比较详细。
打开之后修改一下dataDir,如下图:
好了,这样就配置好了,确实没修改啥……
启动它吧:
进入bin目录,找到zkServer.sh
./zkServer.sh start
这样就启动完成了。
zookeeper的配置就到这。毕竟不是重点
配置Kafka
到官网上下载,kafka并不在cdh的下载目录里面。
下载下来解压缩,命令就省略了,特别的简单,与上面是一致的解压命令。
进入到kafka的主目录接着进入到config目录,编辑server.properties,只需修改log.dirs目录,如图,修改成自己想要的目录即可。
启动kafka服务,在bin目录下面:
bin/kafka-server-start.sh config/server.properties &
最后的&表示后台运行。
创建一个topic
bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
查看已经存在的topic
bin/kafka-topics.sh --list --zookeeper localhost:2181
[
启动生产者
bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
启动一个消费者
bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test [--from-beginning] --from-beginning表示每次都会将生产者的信息全部发过来,不加则是从消费者上线开始将之后生产的消息发过来。
]
注:[] 是补充的,本项目并不需要启动生产和消费者。创建topic时有--replication参数,代表副本的意思,一般情况下有几个kafka节点就写几,有点主从复制的意思,为了保证宕机时数据的完整。--partitions参数代表 分区个数,这里涉及到kafka的一些概念。kafka将一个分区的数据发送给同一个group的一个consumer中。也就是一个group中有一个consumer接收到消息。group是通过指定的groupid进行区分的。id相同就在一个group。
flume配置
先介绍它里面的几个名词:
1. agent:三个组件的整体
2. source:数据源
3. channel:管道,读取数据之后存储的地方
4. sink:数据的目的地
配置flume-env.sh
export JAVA_HOME=自己的路径
编写一个conf文件,这里举例使用example.conf ,(摘抄自官方文档,example.conf是自己创建的空文件)
a1.sources=r1 a1.channels=c1 a1.sinks=k1 a1.sources.r1.type=netcat a1.sources.r1.bind=localhost a1.sources.r1.port=44444 a1.sinks.k1.type = logger a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1
配置整合 flume-kafka
再来分析一下数据的流程(下面的exec等都是参考了官方文档找到的,我在()里面做了大概的解释,如果不是很懂得同学可以去官方文档看一下):
exec source(文本类,即使用读取文件的命令来读取source)——>avro sink(网络连接)——>avro source——>kafka sink(这里相当于kafka的producer)——> kafka consumer(可以使spark streaming去消费topic里面的信息)
每一个source+sink+channel=agent,综上所述,需要启动两个agent进行数据交互,并且事先要启动kafka(kafka需要zookeeper)
以上面标准的配置信息为基础
查看官方文档并进行自定义添加:
1. exec source
a1.sources = r1
a1.channels = c1
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /var/log/secure
a1.sources.r1.channels = c1
文档中给出如上的核心配置,我们挑出标准配置中没有的特定配置,添加上即可。
exec.sources=r2
exec.channels=c2
exec.sinks=k2
exec.sources.r2.type=exec
exec.sources.r2.command=tail -F /home/hadoop/data/analysisData.txt
exec.sources.r2.shell=/bin/sh -c
exec.sinks.k2.type = logger
exec.channels.c2.type = memory
exec.channels.c2.capacity = 1000
exec.channels.c2.transactionCapacity = 100
exec.sources.r2.channels = c2
exec.sinks.k2.channel = c2
这样就完成了。下面的也像这样操作就好了。
2. avro sink
exec.sources=r2
exec.channels=c2
exec.sinks=k2
exec.sources.r2.type=exec
exec.sources.r2.command=tail -F /home/hadoop/data/analysisData.txt
exec.sources.r2.shell=/bin/sh -c
exec.sinks.k2.type = avro
exec.sinks.k2.hostname=spark
exec.sinks.k2.port=44444
将此内容合并后,就得到了如上的配置。
3. avro source
4. kafka sink
5. 这样,1,2在一个文件中,3,4在一个文件中就可以了。
这里教一下怎么找文档:
跟我一样使用cdh版本的同学使用如下链接找到文档:
启动flume
1. bin/flume-ng agent --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/example1.conf --name exec -Dflume.root.logger=INFO,console
2. bin/flume-ng agent --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/example2.conf --name kafka -Dflume.root.logger=INFO,console
这里要注意的是,一般启动是先启动带服务的。从配置中可以看出,涉及kafka的配置中是会启动服务的,可以优先启动它。也就是编号2。
没有报错后可以启动一个kafka的consumer进行测试。
开启一个终端对监听的日志文件的修改。
echo hello world >> log.txt -----》这里写你自己监听的文件名。
可以看到consumer的终端下面接收到了数据,那么一个简单的继承就写完了。