kafka 可视化工具_关于StreamSets ETL工具的简单部署和使用

概述

官网:https://streamsets.com/

Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有:
- 可视化界面操作,不写代码完成数据的采集和流转
- 内置监控,可是实时查看数据流传输的基本信息和数据的质量
- 强大的整合力,对现有常用组件全力支持,包括50种数据源、44种数据操作、46种目的地。

对于Streamsets来说,最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)。创建一个Pipelines管道配置也基本是这三个方面。

常见的Origins有Kafka、HTTP、UDP、JDBC、HDFS等;Processors可以实现对每个字段的过滤、更改、编码、聚合等操作;Destinations跟Origins差不多,可以写入Kafka、Flume、JDBC、HDFS、Redis等。

部署:

部署要求:

centos7+

JDK1.8+

首先到StreamSets官网提供的下载址:https://archives.streamsets.com/index.html

官方提供核心包下载,完整包下载及docker安装 等多种下载方式.完整包大小约4G+,包含所支持的所有组件.多数用不到,所以不推荐下载完整包.一般下载核心包 Core SDC Tarball 即可.

f0056013bee8bd5f8bddae9c93ab874c.png

安装:

准备工作:

首先先创建一部分备用文件夹 ,用来测试.生产服务器根据需求指定文件路径.

# mkdir /home/test_stream (test文件夹)
# mkdir /home/test_stream/data (数据文件夹)
# mkdir /home/test_stream/error (报警文件夹)
# mkdir /home/test_stream/out (数据输出文件夹)
# chmod -R 777 /home/test_stream (赋权)

将tar包上传至服务器,(将tar包放入opt或其他文件夹),

解压tar包 :# tar xvzf streamsets-datacollector-core-***.tgz

进入bin文件夹 :# cd streamsets-datacollector-***/bin/

执行命令:# ./streamsets dc

有可能会报错 :

Java 1.8 detected; adding $SDC_JAVA8_OPTS of "-XX:+UseConcMarkSweepGC -XX:+UseParNewGC -Djdk.nio.maxCachedBufferSize=262144" to $SDC_JAVA_OPTS

Configuration of maximum open file limit is too low: 1024 (expected at least 32768). Please consult https://goo.gl/6dmjXd

如果在运行的时候遇到上面的报错,修改操作系统的 open files 限制数量即可。

命令 #vi /etc/security/limits.conf

在 # End of file结束语上方 添加两行内容:

* soft nofile 102400

* hard nofile 102400

保存退出.然后重启机器reboot.

运行 'ulimit -n' 既可以看到 open files 设置值已生效。

1be60e72cb5cf868aa8a7387cb734e29.png

然后重新进入bin目录执行命令:# ./streamsets dc

8abff55ca67861bd99756659f250d4de.png

StreamSets项目本身具有WEB界面,启动项目后如出现Running on URL : 'http://ip:18630'则说明项目启动成功.

部署完成!

操作:

进入StreamSets主页,默认帐号密码 admin

38f7950e3687adabc659c4cee0861f51.png

进入系统后创建第一个Pipelines

134e765246dd92aa6891c35f98be5c56.png

mysql-mysql示例

首先查看是否存在JDBC组件,mysql日志记录组件,进入包管理器

d67beca2db520a9759106c051afa53d0.png

如果组件已存在可直接进行管道流配置,如果不存在需安装所需组件.安装方式如下

f227bba85652c0a76156d684821a26d0.png

由于网络状况可能出现安装失败的情况,如果安装失败可能会导致无法继续安装,此时需要删除已安装内容.

进入项目目录下,

进入 streamsets-libs 文件夹 # cd streamsets-libs

然后删除刚刚安装失败的组件包# rm -rf streamsets-datacollector-********

然后重新安装即可

安装完成后重启即可,再次进入包管理器即可看到组件已安装.即可进行pipelines管道流配置,

在右侧选择你要使用的组件,单击,即可出现在左侧画布上,

a35f2b321bf4fbcf176edae5ccfa8e65.png

80914d27cf953e72144d8e21b12fcf04.png

选择组件进行配置,对此四项进行配置,

2f27ca4d42695ca3fe42204e73bd48f6.png
选择组件进行配置,对此四项进行配置,

配置数据库帐号密码

eabe73d717f1e1f391147dcfdb7854df.png

配置驱动

b952541d46b87ca00dbb81ec0ce80d39.png

其他选择默认即可,此时还会有一个报错,提示需要指定错误报警处理方式为输出至文件,并设定输出地址,

4277152888c47fa9735b6aa74b37807d.png

点击数据源对外接口进行拖拽至要连接的组件端口生成管道.

79181c42e9f5a6f2c85187902d1dce2f.png

连接完成.

然后对接收组件进行配置.

72d6eadcbfb2db7868b1b23284aa2010.png

选择对哪类操作进行监控,

c36de3c38873d4e3d1f0006d7ef6e3bc.png

配置完成后已无明显报错提示,

fe5e0239fa65272e7b7ce17cec381422.png

即可进行测试.

点击'眼睛'预览配置即可进行逐步测试,此功能类似Debug,将会逐个节点进行测试,更容易调试,进入后即可看到数据源读取的数据内容并操作.

3993455e339f9afda993e32a89cede82.png

692926864915323cb68e8f9ac4e5f7d6.png

点击'✔'验证配置即可后台对完整流进行测试校验,通过说明该管道流已无报错,如果报错,根据错误进行修正.

点击'start'开始 即可开启管道流.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值