使用InfoSphere DataStage Java阶段和ICU4J将音译作为ETL作业

存档日期:2019年5月14日 | 首次发布:2011年6月16日

随着增长市场中数据质量的重要性日益提高,迫切需要清除脏的,非结构化的数据。 但是,此练习中的挑战之一是,各国可能拥有多种语言,这对有效处理语言数据提出了挑战。 例如,在印度,每个州的官方语言是不同的,并且可用英语和本地语言提供数据,这加剧了数据一致性问题。 本文介绍了如何在音译过程中实现一致性,以及如何使用IBM®InfoSphere®Information ServerDataStage®来准备语言数据作为摘录的一部分,然后转换并装入(ETL)场景。

此内容不再被更新或维护。 全文以PDF格式“按原样”提供。 随着技术的飞速发展,某些内容,步骤或插图可能已更改。

翻译自: https://www.ibm.com/developerworks/data/library/techarticle/dm-1106etljob/index.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值