- 适用场景
1.ETL(抽取,转换,加载)2.BI(商务智能)3.DW(数据仓库)
- 基本理论,核心概念
Etl三个最主要步骤:
“抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。
csv,table,json,xml
“转换”:按照预先设计好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来。
“装载”:将转换完的数据按计划增量或全部导入到数据仓库中
增量,全量
Kettle:
- spoon---任务和转换的设计工具(GUI),一般在编写和调试ETL时用到。
- Pan----转换执行器(命令行方式),一般在自动调度时借助此命令调用调试成功的转换
- Kitchen----任务执行器(命令行方式),一般在自动调度借助此命令调用调试成功的job
Kettle优点:
1、免费,kettle完全开源,可以根据需要调整代码增减功能。
2、稳定,目前我们公司每天运行的kettle JOB 超过500个,运行近两年没有出现过因为kettle引起BUG。
Job任务调度,支持可配置 时间间隔 s,min 每天什么时候,每周几哪个时间,每个月多少号什么时候。
3、开发高效,开发效率比较高,拖一些控件就能完成开发。
Kettle缺点:
1、新增功能不完善,bulk load数据无法查找出错明细
2、部分功能不全,目前基本满足ETL需求,但个别特殊功能不能满足需求,
如下载ftp数据。
- 安装使用
下载地址:http://kettle.pentaho.com/
1.安装jdk ( 建议安装jdk1.8)
2.配置环境变量:
变量名:pentaho_java_home
变量值:jdk安装目录
3.kettle为绿色软件,下载解压到一个目录下。
双击spoon.bat即可使用
(kettle默认支持的oracle,要用mysql需要安装mysql驱动)
- 业务使用
- ETL处理,异构数据库同步
多个transform 组成一个job,job实现任务的调度。
2.建立数据仓库,从多个数据库抽取数据,进行处理进入数据仓库
3.报表(为报表提供处理好的数据)
- kettle入门案列:
- 设置变量
2.常量计算
3.卸数
4.增量更新
5.全量覆盖
6.创建文件夹
- 了解内容
数据仓库(DW):为需要业务智能的企业,提供指导业务流程改进,监视时间,成本,质量以及控制。理念就是让数据说话。
- Etl常用操作
1.对空值的处理
2.选择修改,移除字段
3.字段拆分
- 参考地址
- https://blog.csdn.net/zzq900503/article/details/78405958 数据仓库