Gobblin部署--standalone模式

在本机部署gobblin,可以使用standalone模式。这将使得从kafka抽取的数据,输出到本地文件系统中。

1、下载Gobblin

对于standalone模式,有2种部署方法:

1、直接下载预编译的版本
2、下载源码,手动编译

我们这里简单起见,直接使用Gobblin编译好的版本:gobblin-distribution-0.8.0.tar.gz

2、安装Gobblin

解压:

tar -zxvf software/gobblin-distribution-0.8.0.tar.gz 

更改目录名称:

mv gobblin-dist/ gobblin

3、更改环境变量

确保已经配置了JAVA_HOME;

添加如下2个环境变量到bashrc中:

export GOBBLIN_JOB_CONFIG_DIR=/home/flink/gobblin/gobblin_conf_dir
export GOBBLIN_WORK_DIR=/home/flink/gobblin/gobblin_work_dir

立即生效:

source ~/.bashrc

4、创建目录,添加配置文件

创建GOBBLIN_JOB_CONFIG_DIR以及GOBBLIN_WORK_DIR所在的目录:

mkdir gobblin_conf_dir
mkdir gobblin_work_dir

在GOBBLIN_JOB_CONFIG_DIR中添加如下配置文件(以.pull或者.job结尾):

[flink@cninfo gobblin_conf_dir]$ cat standalone.pull 
job.name=GobblinKafkaQuickStart
job.group=Gobblin
job.description=Gobblin quick start job for Kafka
job.lock.enabled=false
kafka.brokers=flink:9092,data0:9092,mf:9092
source.class=gobblin.source.extractor.extract.kafka.KafkaSimpleSource
extract.namespace=gobblin.extract.kafka

writer.builder.class=gobblin.writer.SimpleDataWriterBuilder
writer.file.path.type=tablename
writer.destination.type=HDFS
writer.output.format=txt

data.publisher.type=gobblin.publisher.BaseDataPublisher

topic.whitelist=test
simple.writer.delimiter=\n


mr.job.max.mappers=1

metrics.reporting.file.enabled=true
metrics.log.dir=${env:GOBBLIN_WORK_DIR}/metrics
metrics.reporting.file.suffix=txt

bootstrap.with.offset=earliest
[flink@cninfo gobblin_conf_dir]$ 

这里主要注意3个地方:

kafka.brokers : kafka brokers的列表
topic.whitelist=test : 代表想要抽取的topic的名字
simple.writer.delimiter=\n : 代表每一行就是一个message消息,回车结尾

5、以standalone模式运行Job

[flink@cninfo bin]$ gobblin-standalone.sh start

数据被输出到GOBBLIN_WORK_DIR目录下的job-output:
这里写图片描述

6、总结

gobblin standalone模式的部署相对来讲比较简单,下一篇文章将重点介绍如何部署mapreduce模式。

参考:
Gobblin采集kafka数据
Configuration Glossary
Deployment

阅读更多
换一批

没有更多推荐了,返回首页