数据清洗工具kettle

kettle简介:

         kettle是pentho的一个组件,用来做数据清洗的,现在已经支持很多数据库以及文件格式,也包括大数据hdfs等。有图形界面,也可以在linux下去调用,用起来非常方便。kettle是开源工具,有源代码可以下载,ant管理编译,流程比较清楚,如果满足不了自己的需求可以去开发,也可以嵌入使用java代码以及javascript代码,来进行数据清洗。下面我来简单的说下一些常用的工具。

     

1.Transform=转换
Dummy Plugin=空操作
=这是一个空的测试步骤


2.Input=导入数据
ESRI Shapefile Reader=读取矢量数据
=从SHP文件中读取图形数据和属性数据

S3 CSV Input=CSV文件输入
=将读取的CSV文件数据并行存储到Amazon中


3.输入
Access Input=导入数据库文件
=从微软数据库文件中读取数据

CSV file input=导入CSV文件
=导入简单的CSV文件

Cube 输入=导入Cube文件
=从一个cube文件中读取数据

Excel 输入=导入Excel文件
=从微软的Excel文件中读取数据,兼容Excel 95,97,2000

Fixed file input=导入文本文件
=导入文本文件

Generate random value=生成随机数
=随机数生成器

Get file Names=获得文件名称
=从系统中获得文件并将其发送到下一步

Get files Rows Count=获取文件行数
=获取文件行数

Get SubFolder names=获取子文件夹名称
=读取一个主文件夹获取所有的子文件

Get data from XML=从xml文件中获取数据
=使用XPath路径读取xml文件,这个步骤也允许你解析以前字段定义的xml文件

LDAP Input=使用LDAP协议读取远程数据
=利用LDAP协议连接远程主机读取数据

LDIF Input=导入LDIF文件
=从LDIF文件中读取数据

Mondrian Input=导入MDX文件
=用MDX查询语句执行和审核数据,分析LDAP服务器

Property Input=导入属性文件
=从属性文件中读入键值对

RSS Input=导入RSS订阅
=读取RSS订阅信息

SalesForce Input=导入salesforce服

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值