OLAP可以通过把大量实体的不同方面数据聚集,而产生有影响力的查询。但很多数据来源比如GPS,传感器,等其他设备的数据是不完善的,所以OLAP无法应用。于是,我们提出了一种解决数据真实性的方法-----probabilistic data cubes(数据立方体)。
probabilistic data cubes组成方式
Such a cube is comprised of a set of probabilistic cuboids which summarize the aggregated values in the form of probability mass functions (pmfs in short) and thus offer insights into the underlying data quality and enable confidence-aware query evaluation and analysis.
这种数据立方体是由一系列总结(通过函数而聚集的值)的cuboids(立方块)组成的,所以这种数据立方体能洞察数据深处,使查询评估和分析更加清楚。
probabilistic data cube特点
我们通过使数据立方块(cuboids)聚集,然后使数据立方体(cubes)具体化,达到查询评估。
在聚集方面,我们关注使立方块(cuboids)之间的共享模块最大化。使用了两种方式
i)convolution(卷积),使处理多项式的时间复杂度规模化下降
ii)sketch-based,使处理线性方程式的时间复杂度规模化下降
这两种方式都支持完整或部分的数据块(cuboids)的具体化
我们还提供了使数据立方体分片或分块的算法