记录使用Kettle导入excel数据心得

Kettle刚用的时候发现了很多问题,网上的资料也不多,简单记录一下遇到的一些问题,和一些使用技巧。

问题

1)kettle读取excel格式固定,一个excel输入节点,字段填写后是按顺序把第n列的数据给第n个字段,不是按表头去赋值的,也就是说自动获取表头字段不能随意地改变顺序、删除。

2)excel输入要注意选择sheet,不选他会把所有sheet都读入,有些sheet可能数据连格式都不一样。

3)js脚本输入字段是中文,想要使用这个字段需要先赋值给英文变量,比如输入有个“姓名”需要先写

var name = 姓名;

技巧

1)输入中有“自定义常量数据”节点,可以供其他节点当参数。

2)查询里面有“模糊匹配”节点,这个东西真的好用,他可以计算两个字符串的相似程度,比如excel有个字段公司名称,但是人手动输入可能与数据库中存的标准名称差几个无关紧要的字,比如:
数据库中存的:神马街道搓澡股份有限公司
有些人就填写:神马街道搓澡公司
以前我会去匹配一些没用字符串然后去掉,去匹配比如去掉街道以及公司等,用:%搓澡%去匹配,但是效果极差,而且去掉多了容易出现匹配了两个以上的情况。
模糊匹配里选择算法Pair letters Similarity效果比较好,计算结果是0~1的小数,数字越大相似度越高,可以设置阈值0.6~1来增加匹配正确性。
匹配源数据不要太多,能少则少,不然匹配速度慢。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值