在上期发布的文章《分分钟让你学会使用DataStage连通企业级数据库》中,给大家详细介绍过DataStage广泛支持各种异构平台的数据库,提供多种功能强大、类型丰富的数据库连接器,满足企业数据集成所需:
- 提供企业级数据库连接器,例如DB2 Connector, Oracle Connector,Teradata Connector等;自带原生API接口,支持各种优化选项,实现高性能数据抽取和加载。
- 提供JDBC连接器(JDBC Connector),功能更加灵活,不仅支持传统数据库,而且还支持NoSQL数据库,例如Cloudant,MongoDB,Hive,Cassandra等。
- 提供ODBC连接器(ODBC Connector),支持所有提供ODBC驱动的数据库。
DataStage不仅可以全面支持结构化数据,同样也支持对非结构化数据的访问,例如TXT、CSV、XML、COBOL和Excel文件。今天与大家分享的最佳实践,就是如何通过DataStage的Unstructured Data组件来访问和读取Excel文件。
场景一:指定Sheet名和数据范围进行数据抽取
1. Excel文件名为Employee1.xls,包括3个sheet(sheet1, sheet2, sheet3),其中sheet1存放的是员工及部门信息,sheet2和sheet3都为空,数据样本如下: