如何优化多数据集关联报表性能

最新推荐文章于 2019-07-15 12:55:01 发布

Alice_656

最新推荐文章于 2019-07-15 12:55:01 发布

阅读量421

点赞数

分类专栏：报表性能集算1器

报表性能同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

集算1器

4 篇文章 0 订阅

订阅专栏

多数据集关联报表是很常见的报表形式，它允许开发者分别从不同的来源（表或数据库）分别准备数据形成不同的数据集，在报表端（模板）通过表达式描述数据集间的关系完成关联。这样可以避免在数据准备时写过于复杂的 SQL/ 存储过程，降低维护难度。尤其当报表数据来源于多个数据库时，多数据集的优势更加明显。

凡事都有两面性，多数据集为开发带来方便的同时却对性能造成了极大的影响。在报表端进行多数据集关联时要计算关联表达式（举例：ds2.select(name,,id==A1)）时，报表引擎一般会采用顺序遍历的方式进行，先拿一个数据集的第一条记录去第二个数据集中遍历查找符合条件的记录，然后是第二条，第三条…。因此两个数据集关联的时间复杂度是 O(n²)，数据量不大时感受还不明显，数据量稍大一些就会很慢，随着数据集数量的增多报表性能也会呈指数下降。

因此在实际报表业务中，当多数据集关联导致报表性能降低时可以考虑将多个数据集 SQL 合并成一句，利用数据库的关联计算能力提升性能。但这种方式又会导致 SQL 过于复杂，很难维护，而太复杂的 SQL 很可能被数据库搞错优化路径，结果性能仍不可控。并且合并 SQL 的方式有适用场景的限制（如无法完成跨异构库关联、文本关联等）

下面介绍采用集算器的优化方法，写法简单且性能高，能够普遍适用于各种场景：

单数据库，多个数据集 SQL 比较复杂，很难写成一句
单数据库，多数据集中使用了存储过程，无法整合成一句 SQL
单数据库，多数据集合并成一句 SQL 后性能仍不如人意
多数据库，多数据集来源多个数据库，无法通过一句 SQL 进行查询
涉及文件数据，多数据集中部分数据来自文件，无法使用 SQL 进行统一查询

不同于 SQL（关系代数）采用笛卡尔积再过滤的方式看待 JOIN，基于离散数据集模型的集算器将关联运算做了区分（只考虑等值 JOIN）：多对一的主外键表采用外键属性化方式关联、一对一的同维表采用同维表等同化方式关联、一对多的主子表采用主子表一体化关联，针对不同的表间关系采用不同算法进行运算，可以获得更简单的写法和更高的性能以及更广泛的适用范围。

我们将通过一些示例来说明面向各种情况时，如何使用集算器获得最优的实现和效率。需要说明的是，为了描述方便我们使用抽象后最简单的情况说明各种关联运算，实际业务会复杂得多，每个数据集 SQL 也会复杂得多，但是不管怎样多数据集关联关系也逃不出多对一、一对一和一对多的情况，所以拿原子操作来说明问题，以期大家遇到问题时可以采用最合适的方式处理

具体的报表例子和函数分析可以访问该地址：http://c.raqsoft.com.cn/article/1533353655891?r=alice

作者：lisongbo
链接：http://c.raqsoft.com.cn/article/1533353655891
来源：乾学院
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。