StreamSets数据操作平台（数据移动及数据清洗强大工具）

最新推荐文章于 2024-09-02 07:30:00 发布

为一个人走几座城

最新推荐文章于 2024-09-02 07:30:00 发布

阅读量1.7k

点赞数 1

分类专栏：开发架构文章标签：异库主从同步

开发架构专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前言：最近在公司接到一个业务：将MySQL的数据实时同步到HBase中，刚接手的时候一脸蒙，在不断的探索中，也发现其实这条线真的很好走，因为有很多方案可以选择。一下就是其中一种，后面我也会分享更多其他相关的方案，供大家参考。这种方式我自己尝试了，并没有使用在真正的开发中，因为我们需要实时获取到增删改的时间，并将这个时间写入HBase，作为数据分析的参考。

1、支持多种安装方式

1.1、核心安装包（Core Tarball）

该安装包包含核心的SDC软件，使该软件具有最小的软件连接器集合，当然你可以手动下载额外的节点（Stage）

①通过Streamsets的UI进行安装，UI上点击的位置为：在该软件界面的右边（图标是一个礼物盒子。。。）。

②也可以通过使用CLI进行安装，安装过程如下所示：

1、下载该【核心安装包】，比如版本为：streamsets-datacollector-core-3.0.2.0.tgz

2、解压该安装包

[html] view plain copy

$tar xvzf streamsets-datacollector-core-3.0.2.0.tgz

3、列出所有的可下载的所有节点Stage库，可通过如下命令：

[html] view plain copy

$./bin/streamsets stagelibs -list

4、通过CLI安装所需要的节点库，通过如下命令：

[html] view plain copy

$ ./bin/streamsets stagelibs -install=<stageid1>,<stageid2>

1.2、Cloudera安装包（Cloudera Parcel）

Cloudera版本安装过程如下所示：

1、将CSD拷贝到一个目录中，命令如下：

[html] view plain copy

$ mv STREAMSETS-3.0.2.0.jar /opt/cloudera/csd/

2、修改文件的权限，命令如下：

[html] view plain copy

$ sudo chown cloudera-scm:cloudera-scm STREAMSETS-3.0.2.0.jar && sudo chmod 644 STREAMSETS-3.0.2.0.jar

3、重启Cloudera管理器，命令如下：

[html] view plain copy

$ sudo /etc/init.d/cloudera-scm-server restart

1.3、包含所有组件的完整安装包（Full Tarball）

完整版的安装过程如下所示：

1、下载该安装包

2、解压

[html] view plain copy

$ tar xvzf streamsets-datacollector-all-3.0.2.0.tgz

3、解压之后，就可以直接启动，启动命令为：

[html] view plain copy

$ streamsets-datacollector-3.0.2.0/bin/streamsets dc

4、启动之后就可以通过浏览器查看了，默认的访问地址为：

[html] view plain copy

Browse to http://<system-ip>:18630/

5、UI界面看到之后，就可以通过该密码进行登录

用户名和密码都为：admin

1.4、完整的RPM包（FullRPM）

该版本的安装过程如下：

1、选择合适的操作系统版本（如红帽的el6或者el7），然后通过如下命令进行操作

[html] view plain copy

$ tar xf streamsets-datacollector-3.0.2.0-[operating system]-all-rpms.tar

[html] view plain copy

$ yum localinstall streamsets*.rpm

2、启动该软件在el6操作系统，操作命令为：

[html] view plain copy

$ service sdc start

3、启动该软件在el7操作系统，操作命令为：

[html] view plain copy

$ systemctl start sdc

4、启动之后就可以通过浏览器查看了，默认的访问地址为：

[html] view plain copy

Browse to http://<system-ip>:18630/

5、UI界面看到之后，就可以通过该密码进行登录

用户名和密码都为：admin

1.5、Docker镜像（Docker Image）

Docker版本的安装过程如下所示：

1、可以使用docker的命令进行启动，命令如下：

[html] view plain copy

$ docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector

2、UI界面看到之后，就可以通过该密码进行登录

用户名和密码都为：admin

3、最后一步进行发布就可以了，命令如下：

[html] view plain copy

$ docker run --publish 18633:18633 --name edge --rm streamsets/datacollector-edge

1.6、源码

源码地址为：http://github.com/streamsets

硬件环境要求：

将Data Collector安装在满足以下最低要求的机器上。要以集群执行模式运行管道，集群中的每个节点都必须满足最低要求。

组件	最小
操作系统	使用以下操作系统和版本之一：: Mac OS X CentOS 6 or 7 Red Hat Enterprise Linux 6 or 7 Ubuntu 14.04 LTS or 16.04 LTS
CPU核数	2
内存	1 GB
硬盘空间	6 GB
文件大小	32768
Java版本	Oracle Java 8 or OpenJDK 8
浏览器	使用一下的浏览器即可： Chrome Firefox Safari

配置打开文件限制

数据收集器需要大量的文件描述符才能在所有阶段正常工作。大多数操作系统提供一个配置来限制进程或用户可以打开的文件数量。默认值通常小于32768个文件描述符的Data Collector 要求。
使用以下命令验证当前用户的配置限制：

[html] view plain copy

ulimit -n

大多数操作系统使用两种方式配置打开文件的最大数量 - 软限制和硬限制。硬限制由系统管理员设置。软限制可以由用户设置，但只能达到硬限制。
增加每个操作系统的打开文件限制是不同的。请查阅您的操作系统文档以获取首选方法。
增加Linux上的限制

要增加Linux上的打开文件限制，请参阅以下解决方案：如何设置ulimit值。
这个解决方案应该可以在Red Hat Enterprise Linux，CentOS和Ubuntu上运行。但是，请参阅您的操作系统的管理员文档以获取首选方法。
增加Mac OS上的限制

您用于增加Mac OS上限的方法可能因每个版本而异。
要增加计算机的限制 - 以便在重新启动终端并重新启动计算机后保留限制 - 创建属性列表文件。以下步骤适用于Mac OS Yosemite，El Capitan和Sierra：

使用以下命令创建一个名为的属性列表文件 limit.maxfiles.plist：

[html] view plain copy

sudo vim /Library/LaunchDaemons/limit.maxfiles.plist

将以下内容添加到文件中，修改 MAXFILES 属性根据需要。
maxfiles属性定义了打开的文件限制。文件中的第一个值是软限制。第二个值是硬限制。

例如，在下面 limit.maxfiles.plist文件，软限制和硬限制均设置为32,768：

[html] view plain copy

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
<key>Label</key>
<string>limit.maxfiles</string>
<key>ProgramArguments</key>
<array>
<string>launchctl</string>
<string>limit</string>
<string>maxfiles</string>
<string>32768</string>
<string>32768</string>
</array>
<key>RunAtLoad</key>
<true/>
<key>ServiceIPC</key>
<false/>
</dict>
</plist>