商业智能应用后台开发,离不开数据仓库和ETL工具两类基础部件。
若将数据比作水流,则数据仓库便是罐子,而ETL工具则是管子。
数据仓库的容量及性能、采购成本,对于BI应用的投资收益率影响很大,需审慎决策。
2010年底,因工作需求,曾对Greenplum进行过一轮功能分析及性能测试。
主要包括:加载性能、查询性能、更新性能、备份和恢复性能测试,及高可用性验证、高并发性验证。
其中性能测试场景,借用了TPC-H Revision 2.12.0。
TPC-H是Transaction Processing Performance Council,发布的一个决策支持系统性能测试方案。
它由一组解答业务问题的ad-hoc查询,及并发数据修改操作构成。这些查询及修改操作,在一个包含8张表格的模拟商业数据库上执行。这些表格包括lineitem、orders、partsupp、customer、part、supplier、nation、region,它们之间的逻辑关系见图 1。
图 1 The TPC-H Schema
测试用数据记录文件,可使用TPC-H Revision 2.12.0测试包中的程序生成。数据规模可通过程序参数来调节。
高并发场景中,使用自动化测试工具LoadRunner模拟多个用户操作。
TPC-H Revision 2.12.0测试包对Oracle、DB2等支持较好,而对“后生”Greenplum尚未正式支持,使用前需要做些代码调整。