文章目录
可视化ETL工具——Kettle
ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程。ETL一次较常用在数据仓库,但其对象并不限于数据仓库。
Kettle介绍
对于企业或行业应用来说,经常会遇到各种数据的处理,转换,迁移,掌握一种etl工具的使用,必不可少,这里要学习的ETL工具是——Kettle,现在已经更名为PDI。
- Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装
- Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出
- Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做
Kettle入门案例
入门案例将从多个方面演示kettle最基础的文件转换操作以及包含对数据库表数据和Hadoop集群文件操作
csv - excel
需求:把数据从csv文件抽取到excel文件
Json - excel
需求:将json文件的数据抽取到excel中
MySQL - excel
需求:将MySQL数据库中的user表中的数据抽取到excel文件中