使用InfoSphere DataStage Java阶段和ICU4J将音译作为ETL作业

最新推荐文章于 2024-09-14 08:25:16 发布

cusi77914

最新推荐文章于 2024-09-14 08:25:16 发布

阅读量136

点赞数

文章标签： python java 大数据编程语言人工智能

原文链接：https://www.ibm.com/developerworks/data/library/techarticle/dm-1106etljob/index.html

版权

存档日期：2019年5月14日 | 首次发布：2011年6月16日

随着增长市场中数据质量的重要性日益提高，迫切需要清除脏的，非结构化的数据。但是，此练习中的挑战之一是，各国可能拥有多种语言，这对有效处理语言数据提出了挑战。例如，在印度，每个州的官方语言是不同的，并且可用英语和本地语言提供数据，这加剧了数据一致性问题。本文介绍了如何在音译过程中实现一致性，以及如何使用IBM®InfoSphere®Information ServerDataStage®来准备语言数据作为摘录的一部分，然后转换并装入（ETL）场景。

此内容不再被更新或维护。全文以PDF格式“按原样”提供。随着技术的飞速发展，某些内容，步骤或插图可能已更改。

查看PDF文件

翻译自: https://www.ibm.com/developerworks/data/library/techarticle/dm-1106etljob/index.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cusi77914

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

java调用datastage的底层实现

09-26

要做datastage调度的，ds对c开放接口，这个是java写的可以用java调用dsjob的代码，里面实现了所有的方法，还有一个调用的例子。需要的朋友可以下载回去，我研究好长时间。。。里面还有用到的ds的文档可以自己在其他网站下载到。也可以找我的

java调用datastage_Datastage重启服务

weixin_39884100的博客

02-17

249

使用DS开发job时，偶尔一个Job出现卡死现象，导致工作不能进展下去，有时候需要重启datastage服务才可以。DataStage在正常运行时候有以下两个主要的进程:(1)dsrpcd(DS的主进程)$ps -ef | grep dsrpcdroot 16024861 0 09:42:17 pts/5 0:00 /app/dsadm/Ascential/DataStage/DSEn...

参与评论您还未登录，请先登录后发表或查看评论

datastage java_datastage server job之java调用datastage job

weixin_36474001的博客

02-13

214

===================================================================希望能够和使用的DataStage 朋友们一起探讨学习。QQ：154642320 e-mail:zhaofmyan@sohu.com===================================================================...

datastage java_使用 DataStage Java Integration Stage 和 Java Pack 从 Excel 源文件中

weixin_39715997的博客

02-15

290

简介 IBM InfoSphere Information 服务器由一套可帮助企业从遍布多个数据源系统的信息中获取业务价值的数据集成产品组成。它有助于以某种具有成本效益的方式从多个异构数据源中分析、清理和集成信息。有了 IBM InfoSphere Information Server，企业能够以较简介IBM InfoSphere Information 服务器由一套可帮助企业从遍布多个数据源系统...

java 调度 datastage 之jna

一叶扁舟的专栏

05-23

2975

通过java jna 调用datastage c api 例子如下，这是运行作业的例子经测试是可行的。 import com.sun.jna.Library;import com.sun.jna.Structure;import com.sun.jna.Union;import com.sun.jna.Native;/** Simple exampl

IBM InfoSphere DataStage 实时监控和统一运维平台

数控小J 对大数据的探索与见解

07-07

5328

IBM InfoSphere DataStage Operations Console 是一个基于 Web 的监视工具。它为 InfoSphere DataStage 和 QualityStage 客户提供了 IBM InfoSphere Information Server 引擎操作环境的全面视图，监视当前和过去的作业活动、服务器资源使用情况和服务器引擎流程的健康状态。

InfoSphere DataStage8.5 开发系列教程 - 并行作业教程

12-09

InfoSphere DataStage 8.5 是IBM提供的一款强大的数据集成工具，它允许用户设计、构建和执行复杂的数据集成流程，以实现数据清洗、转换、加载（ETL）以及数据分析任务。在“InfoSphere DataStage8.5 开发系列教程 - ...

IBM InfoSphere DataStage Balanced Optimization

03-07

### IBM InfoSphere DataStage Balanced Optimization #### IBM InfoSphere Information Server: A Comprehensive Platform for Data Management IBM InfoSphere Information Server is a powerful software ...

InfoSphere DataStage8.5 开发系列教程 - 定制操作程序参考大全

12-09

DataStage是IBM的一款强大的ETL（Extract, Transform, Load）工具，用于数据集成和数据仓库建设。在标准操作程序库的基础上，通过定制操作程序，用户可以实现更灵活、更高效的数据处理流程。在DataStage中，操作...

InfoSphere DataStage8.5 开发系列教程 - BASIC Reference Guide

12-09

BASIC Reference Guide 提供对 InfoSphere Information Server 引擎所用的 BASIC 语言的参考信息。只有英文版本

IBM Datastage Java 包开发手册简体中文版

12-14

DataStage中Java Client阶段及Java Transformer阶段的使用，以及这两个阶段调用的JAVA类的开发包，开发方法，包含示例代码。

Datastage介绍及示例

12-12

Datastage包含四大部件：Administrator、Manager、Designer、Director。 1．用 DataStage Administrator 新建或者删除项目，设置项目的公共属性，比如权限。 2．用 DataStage Designer 连接到指定的项目上进行Job的设计； 3．用 DataStage Director 负责job的运行，监控等。例如设置设计好的job的调度时间。 4．用 DataStage Manager 进行Job的备份等job的管理工作。

icu4j-3_8_1.jar

05-04

icu4j-3_8_1.jar工具类jar包

datastage 入门示例

java etl

09-08

472

1. 环境 OS: win xp ETL工具：data stage 版本 7.5.1 数据库：db2 版本 9 其驱动版本 2.8.46 -------------------------------------------------------------------------------- 2. 安装两个主要的部分安装都比较简单，要说明的是： -- 安装完data stag...

文件编码识别工具icu4j

Logger

01-16

1400

需求背景 PM接了个邮件预览的需求，其他项目组买了Aspose.Email for Java的服务，包装一下做了个邮件转换服务，将eml、msg格式转换为html文本，将html以流的形式返回。基于这个邮件转换服务，我们开发出邮件预览功能。思路就是文件传到他们那边，拿到返回的流，之后有两种方式：1.流写入文件，让用户下载。2.将返回的流转为字符串，让前端开一个tab进行渲染。其实在我们接入之前，...

在java中通过icu4j来读取文件的编码格式

RyuSekii

03-24

2316

pom.xml <dependency> <groupId>com.ibm.icu</groupId> <artifactId>icu4j</artifactId> <version>58.2</version> </dependency> java /** *...

ICU4J介绍

Java的专栏

05-10

7074

ICU (International Components for Unicode)是为软件应用提供Unicode和全球化支持的一套成熟、广泛使用的C/C++和Java类库集，可在所有平台的C/C++和Java软件上获得一致的结果。ICU首先是由Taligent公司开发的，Taligent公司被合并为IBM公司全球化认证中心的Unicode研究组后，ICU由IBM和开源组织合作继续开发。开始ICU只有Java平台的版本，后来这个平台下的ICU类被吸纳入SUN公司开发的JDK1.1，并在JDK以后的版本中不断

datastage server job之java调用datastage job

zhaofmyan的专栏

07-08

3388

=================================================================== 希望能够和使用的DataStage 朋友们一起探讨学习。QQ：154642320 e-mail:zhaofmyan@sohu.com===========================================

Python办公自动化案例（二）：对比两个Excel数据内容并标出不同