Oracle与集算器对比测试报告(续)

最新推荐文章于 2024-09-24 08:39:48 发布

iteye_15107

最新推荐文章于 2024-09-24 08:39:48 发布

阅读量121

点赞数

分类专栏： DB Java相关文章标签：数据库

DB 同时被 2 个专栏收录

94 篇文章 0 订阅

订阅专栏

Java相关

74 篇文章 0 订阅

订阅专栏

7.多表连接

7.1.算法说明

输入：

本测试采用一组宽表和一组窄表来作为输入，宽表组和窄表组只是字段不同，参加运算的字段和算法都一样。

宽表组：数据t表（或者文件）是事实表，共100个字段，6900万行，占硬盘80G；Di、Dj表示维表，都是100列，1000万行，占硬盘10G。

窄表组：数据t表（或者文件）是事实表，共10个字段，11亿行，占硬盘80G；Di、Dj表示维表，都是100列，1000万行，占硬盘10G。

其中:

t表选出字段为sum(t11)、sum(t12)，di选出字段为sum(di11)，dj选出字段为sum(dj11)；

dj表与dj表连接是左连接：di.di23=dj.dj23

di分组字段为di31，dj分组字段为dj31；

计算：

计算分为三种：

t*di：

t表与di表连接左连接：t.t21=di.di21，

连接之后按照di31分组求sum；

t*di*dj：

t表与di表连接左连接：t.t21=di.di21，

t表与dj表连接是左连接：t.t22=dj.dj22

连接之后按照di31和dj31分组求sum；

t*(di*dj)：

t表与di表连接左连接：t.t21=di.di21，

di表与dj表连接是左连接：di.di23=dj.dj23，

连接之后按照di31和dj31分组求sum。

输出：

连接、分组求和之后的结果。

说明：

宽表组表字段多，所以采用集算器列存二进制文件的方式是有意义的。窄表组表字段较少，因此不采用集算器二进制列存的方式，对比Oracle、集算器文本、集算器行存和集算器行存分段四个测试对象。

7.2.Oracle sql示例

t*di:

Select sum(t.t11),sum(t.t12),sum(di.di11)

from t left join di on di21=t.t21

group by di.di31

t*di*dj:

Select sum(t.t11),sum(t.t12),sum(di.di11),sum(dj.dj11)

from t left join di on di.di21=t.t21 left join dj on dj.dj22=t.t22

group by di.di31,dj.dj31

t*(di*dj):

Select sum(t.t11),sum(t.t12),sum(di.di11),sum(dj.dj11)

from t left join dion di.di21=t.t21 left join dj on dj.dj23=di.di23

group by dj.dj31

7.3.集算器脚本示例

main.dfx

joinsub.dfx

joinsubb.dfx

7.4.测试结果和分析

7.4.1 宽表组并行数1（无并行）

算法	Oracle	集算器（文本）	集算器（行存）	集算器（列存）
T*D	435	543	340	131
TDD	549	612	382	185
T(DD)	500	553	340	137

结果分析：

1、测试对象之间对比，由于列式存储对性能提高明显，所以集算器列存计算时间最短性能最高；其他三个测试对象因为是行式存储所以性能较低；由于事实表和维表之间存在外键关系，因此集算器行存可以采用较快的switch方法来实现jion，所以比oracle稍快。

7.4.2宽表组并行数4

算法	Oracle	集算器（文本）	集算器（行存）	集算器（列存）
T*D	421	338	325	55
TDD	595	358	325	72
T(DD)	416	348	332	64

结果分析：

1、测试对象之间对比，由于列式存储对性能提高明显，所以集算器列存计算时间最短性能最高；其他三个测试对象因为是行式存储所以性能较低；由于事实表和维表之间存在外键关系，因此集算器行存可以采用较快的switch方法来实现jion，所以比oracle稍快。集算器文本采用4个节点同时并行计算，所以超过了oracle的性能。

7.4.3窄表组并行数1（无并行）

算法	Oracle	集算器（文本）	集算器（行存）	集算器（行存分段）
T*D	508	1824	1415	1330
TDD	4846	2920	2540	2355
T(DD)	3684	2142	1663	1479

性能排名：

算法	第1名	第2名	第3名	第4名
T*D	Oracle	集算器（行存）	集算器（行存分段）	集算器（文本）
TDD	集算器（行存分段）	集算器（行存）	集算器（文本）	Oracle
T(DD)	集算器（行存分段）	集算器（行存）	集算器（文本）	Oracle