Web版ETL工具

Web版ETL工具

源码地址:https://gitee.com/easy_way/web-etl-tool

介绍

本系统基于两个开源组件进行组合,完成在线ETL规则编排和任务可视化管理。其中tomcat中内置了spoon程序,dataCollection组件基于定时任务的方式,集成了spoon脚本执行的功能。
在这里插入图片描述
在这里插入图片描述

软件架构
  • dataCollection --------------- 定时任务管理模块,驱动spoon脚本定时执行
  • apache-tomcat-8.0.39 --------- spoon项目启动容器,启动后编辑脚本,存入资源库
  • debug------------准备了1个示例,可以实现数据库之间的同步,一个是job,一个是转换文件,job中自动引用了该转换文件
  • sql------------里面有3个sql文件,其中kettle_resource.sql是kettle工具对应的数据库,data_collection.sql是dataCollection对应的数据库,db1.sql是debug测试示例中需要的数据库
安装教程
  1. 数据库中新建data_collection和kettle_resource库,导入sql脚本(数据库设置成useSSL=false且大小写不敏感);
  2. Spoon.bat和catalina.bat增加-Dfile.encoding=UTF-8(已加);
  3. 启动tomcat下的spoon项目,访问http://localhost:8080/spoon/spoon连接资源库,输入用户名admin密码admin,新建转换和作业;
  4. data_collection导入到idea启动,访问http://localhost:7080/
使用说明

1、Kettle-Spoon使用

大家可以参考网上的示例,创建对应的job和转换文件,本仓库自带的“测试作业.kjb”和“测试一下.ktr”可以实现数据库之间表数据同步。

2、定时任务平台操作步骤

访问http://localhost:7080/后即可进入平台主页,按照以下步骤进行配置

  • 1、配置资源库
  • 2、配置定时策略
  • 3、新建任务,启动
  • 4、监控管理查看执行日志
参与贡献
  1. Fork 本仓库
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request
特技
  1. 使用 Readme_XXX.md 来支持不同的语言,例如 Readme_en.md, Readme_zh.md
  2. Gitee 官方博客 blog.gitee.com
  3. 你可以 https://gitee.com/explore 这个地址来了解 Gitee 上的优秀开源项目
  4. GVP 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目
  5. Gitee 官方提供的使用手册 https://gitee.com/help
  6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 https://gitee.com/gitee-stars/
  • 20
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
kettle管理工具专门为kettle这款优秀的ETL工具开发的web端管理工具。项目简介kettle作为非常优秀的开源ETL工具得到了非常广泛的使用,一般的使用的都是使用客户端操作管理,但问题是当投入生产环境使用时,动辄上百或几百个job需要管理,这时在使用客户端管理已经很难完成了。我所知道的解决方案有用命令行的调用的,操作麻烦,总之还是很难用啦,还有就是开发web端管理工具,kettle自带了一个web端管理工具,界面极其简陋不说,还很难用,基本无法投入生产环境使用,其他没留意到还有没有较好对众多job进行管理的工具。基于以上情况,和我近两年的kettle定制开发与使用经验。我设计并开发了这款kettle web端管理工具。本系统当前支持oracle和mysql项目功能job运行参数设置,可以在页面上设置作业运行参数,每次运行作业时会用设置的参数覆盖默认值,这个很多人用不上。定时设置,操作界面与kettle中的开始控件界面一致,这个可能是最优用的功能之一。作业的运行与停止,核心功能就不说了。实时查看作业运行日志,最大显示行数可以配置,这个功能看起来不起眼,实际应该是很有用的。后台有一个作业专门完成将运行的作业日志写入日志文件,文件按天分文件夹存放,日志文件大小可以配置,若觉得占用空间,可以设计一个作业进行定时清理以前的日志文件,后续会提供该作业。也可以配置为不写日志文件。作业的运行状态会定时反映到管理界面,我们可以通过多种条件筛选我们需要的作业进行批量运行或停止。本系统是基于数据库资源库设计的,暂时不考虑支持文件资源库。本系统还附带了一个kettle插件,类似kettle已有的自定义类控件(可以在转换中写java代码)。该控件的设计时为了避免每一个需求都去开发一个kettle控件,从后台元数据管理到操作界面设计。该控件采用灵活的JSON传递参数,然后继承一个基类就可以完成一个任务了,就是说基于该控件,只需要开发一个具体的操作类就可以了。有兴趣可以看一下,详细介绍参看:http://www.cnblogs.com/majinju/p/5767046.html。界面截图主界面定时设置界面参数设置界面运行日志查看界面平台级日志,支持查询下载项目介绍主页:kettle-manager主页 标签:Kettle  ETL工具框架
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值