存档日期:2019年5月14日 | 首次发布:2011年6月16日
随着增长市场中数据质量的重要性日益提高,迫切需要清除脏的,非结构化的数据。 但是,此练习中的挑战之一是,各国可能拥有多种语言,这对有效处理语言数据提出了挑战。 例如,在印度,每个州的官方语言是不同的,并且可用英语和本地语言提供数据,这加剧了数据一致性问题。 本文介绍了如何在音译过程中实现一致性,以及如何使用IBM®InfoSphere®Information ServerDataStage®来准备语言数据作为摘录的一部分,然后转换并装入(ETL)场景。
此内容不再被更新或维护。 全文以PDF格式“按原样”提供。 随着技术的飞速发展,某些内容,步骤或插图可能已更改。
翻译自: https://www.ibm.com/developerworks/data/library/techarticle/dm-1106etljob/index.html