CDH相关的软件包地址:https://archive.apache.org/dist
1. 查看自己CDH各软件版本
进去之后随便找一台点进去
2. 添加streamsets服务
官方链接:https://streamsets.com/
下载链接:https://accounts.streamsets.com/archives
如果不是cdh集群,下载完整包即可,超过6个G,下载比较慢
集群包:
STREAMSETS_DATACOLLECTOR-3.21.0-el7.parcel 安装包
STREAMSETS_DATACOLLECTOR-3.21.0-el7.parcel.sha 验证包
STREAMSETS-3.21.0.jar csd文件
将STREAMSETS-3.21.0.jar上传到cm节点的/opt/cloudera/csd 目录下
将剩下俩个包上传到/opt/cloudera/parcel-repo目录下
修改权限:
cd /opt/cloudera/csd
chown cloudera-scm:cloudera-scm STREAMSETS-3.21.0.jar
cd /opt/cloudera/parcel-repo
chown cloudera-scm:cloudera-scm STREAMSETS_DATACOLLECTOR-3.21.0-el7.parcel*
重启cm server服务:
systemctl restart cloudera-scm-server
3. 部署服务
正常的话会显示分配,这边我已经分配过了,就显示激活。如果显示哈希验证失败,极大概率是包不完整。
分配完成后从主页这里“添加服务”,注意Streamsets并非集群,只需要部署一个Data Collector即可,部署了多个实例,这些实例是互相独立的
4. 添加外部库
部署完成后,streamsets是没有内置jdbc驱动的,需要上传jdbc java驱动包,但是上传报错“streamsets REST_1003 - Failed to create directory: lib”,需要添加外部库
官方添加外部库链接:对应3.21版本
https://streamsets.com/documentation/datacollector/latest/help/datacollector/UserGuide/Configuration/ExternalLibs.html#concept_pdv_qlw_ft
在部署Data Collector实例节点的机器上执行:
mkdir /opt/sdc-extras/
chown -R sdc:sdc /opt/sdc-extras/
注意,如果目录不相同,保证自己上下配置一致
修改安全阀:
sdc-env.sh
添加:
export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/sdc-extras/"
sdc-security.policy
添加:
grant codebase “file:///opt/sdc-extras/-” {
permission java.security.AllPermission;
};
注意:保持外部库的目录一致
重启streamsets服务
5. 启动
可用从cdh提供的web UI进入,也可以输入ip:端口进入
http://xxxx:18630/
默认登录名:admin/admin