kettle简介:
kettle是pentho的一个组件,用来做数据清洗的,现在已经支持很多数据库以及文件格式,也包括大数据hdfs等。有图形界面,也可以在linux下去调用,用起来非常方便。kettle是开源工具,有源代码可以下载,ant管理编译,流程比较清楚,如果满足不了自己的需求可以去开发,也可以嵌入使用java代码以及javascript代码,来进行数据清洗。下面我来简单的说下一些常用的工具。
1.Transform=转换
Dummy Plugin=空操作
=这是一个空的测试步骤
2.Input=导入数据
ESRI Shapefile Reader=读取矢量数据
=从SHP文件中读取图形数据和属性数据
S3 CSV Input=CSV文件输入
=将读取的CSV文件数据并行存储到Amazon中
3.输入
Access Input=导入数据库文件
=从微软数据库文件中读取数据
CSV file input=导入CSV文件
=导入简单的CSV文件
Cube 输入=导入Cube文件
=从一个cube文件中读取数据
Excel 输入=导入Excel文件
=从微软的Excel文件中读取数据,兼容Excel 95,97,2000
Fixed file input=导入文本文件
=导入文本文件
Generate random value=生成随机数
=随机数生成器
Get file Names=获得文件名称
=从系统中获得文件并将其发送到下一步
Get files Rows Count=获取文件行数
=获取文件行数
Get SubFolder names=获取子文件夹名称
=读取一个主文件夹获取所有的子文件
Get data from XML=从xml文件中获取数据
=使用XPath路径读取xml文件,这个步骤也允许你解析以前字段定义的xml文件
LDAP Input=使用LDAP协议读取远程数据
=利用LDAP协议连接远程主机读取数据
LDIF Input=导入LDIF文件
=从LDIF文件中读取数据
Mondrian Input=导入MDX文件
=用MDX查询语句执行和审核数据,分析LDAP服务器
Property Input=导入属性文件
=从属性文件中读入键值对
RSS Input=导入RSS订阅
=读取RSS订阅信息
SalesForce Input=导入salesforce服