一、概述
ETLCloud 是一个开源的大数据集成平台,专注于数据的提取、转换、加载(ETL)过程。本文将详细介绍如何在 Linux 环境下安装 ETLCloud,并演示一些简单的使用方法,包括数据源管理、作业创建和任务调度。
二、安装步骤
1. 环境准备
首先,确保系统环境符合 ETLCloud 的要求:
- 操作系统:Linux(CentOS、Ubuntu 等)
- Java:JDK 1.8 或以上版本
- MySQL:5.7 或以上版本
2. 安装 Java
确保已安装 Java 1.8 或以上版本。
java -version
3. 安装 MySQL
安装 MySQL 数据库并设置 root 用户密码:
yum install mysql-server -y
启动 MySQL 服务:
systemctl start mysqld
为 ETLCloud 创建数据库和用户:
mysql -u root -p
CREATE DATABASE etlcloud DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;
CREATE USER 'etlcloud'@'%' IDENTIFIED BY 'your_password';
GRANT ALL PRIVILEGES ON etlcloud.* TO 'etlcloud'@'%';
FLUSH PRIVILEGES;
EXIT;
4. 下载 ETLCloud
从官方 GitHub 或ETLCloud官网获取最新版本的 ETLCloud 软件包。
5. 解压并配置
解压下载的安装包:
cd /opt/moudle
tar -zxvf etlcloud-x.x.x.tar.gz -C /opt/installs
修改配置文件 conf/application.properties
,配置数据库连接:
spring.datasource.url=jdbc:mysql://localhost:3306/etlcloud?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai
spring.datasource.username=etlcloud
spring.datasource.password=your_password
6. 启动 ETLCloud
配置完成后,启动 ETLCloud 服务:
./bin/startup.sh
可以通过以下命令查看日志以确保服务启动正常:
tail -f logs/etlcloud.log
7. 访问 ETLCloud
服务启动后,可以通过浏览器访问 ETLCloud:
http://<your_server_ip>:8080/restcloud/admin/login
使用默认的用户名和密码登录(admin/pass)。
三、简单使用指南
ETLCloud 安装完成后,可以进行简单的操作,以下是基本的使用流程。
1. 登录 ETLCloud
通过浏览器访问 ETLCloud 的 Web 控制台:
http://<your_server_ip>:8080/restcloud/admin/login
输入用户名和密码登录(admin/pass)。
2. 创建数据源
- 在左侧菜单中,选择 数据源管理。
- 点击 新增数据源。
- 选择数据源类型(如 MySQL、Hive、HDFS 等)。
- 填写数据源的连接信息(如数据库 URL、用户名、密码等)。
- 测试连接,确保连接成功。
- 保存数据源。
3. 创建作业任务
- 在左侧菜单中,选择 作业管理。
- 点击 新增作业,填写作业名称和描述。
- 在作业配置页面,添加任务节点:
- 读取数据:从数据源中读取数据。
- 数据转换:进行数据的清洗、转换、聚合等操作。
- 写入数据:将处理后的数据写入目标数据库或文件系统。
- 配置每个节点的具体信息(如 SQL 查询、数据转换规则等)。
4. 配置工作流
- 在左侧菜单中,选择 工作流管理。
- 点击 新增工作流,填写工作流名称。
- 在工作流编辑页面,添加所需的作业任务,并按执行顺序排列。
- 保存工作流。
5. 执行任务/工作流
- 在作业或工作流列表中,找到对应任务,点击 执行 按钮。
- 定时调度:进入调度管理,配置 Cron 表达式,设置定时任务。
6. 查看任务日志
任务执行完成后,可以查看执行日志,了解任务执行详情。
- 在作业或工作流的执行记录中,点击查看日志。
- 日志记录数据读取、转换、写入的详细情况,便于排查问题。
7. 数据监控和告警
ETLCloud 支持数据监控和告警功能。
- 设置监控规则:在 监控管理 中可以设置任务执行的监控规则,如执行时间过长、执行失败等。
- 设置告警通知:配置邮件、短信等通知方式,问题出现时会发送告警信息。
8. 简单示例:从 MySQL 到 Hive 的数据迁移
步骤:
- 创建 MySQL 和 Hive 数据源。
- 在作业管理中创建作业,读取 MySQL 中的数据,通过 SQL 清洗并写入 Hive。
- 执行作业,查看日志确保成功。
- 设置定时调度,每天自动运行数据迁移。
四、总结
通过 ETLCloud,用户可以轻松创建和管理 ETL 作业任务、工作流,实现从数据源到目标系统的数据迁移、清洗和转换,支持多种数据源和调度机制,适用于复杂的大数据集成项目。