（论文阅读-优化器）Selectivity Estimation Without the Attribute Value Independence Assumption-CSDN博客

一个包含相同relation中多个属性的查询结果size取决于这些属性的联合数据分布joint data distribution，即，所有属性值组合的频次。为了简化对属性大小的估计，大多数商业系统会假设属性值是互相独立的，并仅针对独立的属性来维护统计数据（通常是直方图）。在实际场景中，这个假设几乎都是错误的，因此估计的结果会非常不准确。在本文中，我们针对高效近似（多维）联合数据分布提出了两个主要可选方案。

使用多维直方图
使用基于线性代数的奇异值分解（SVD）技术

大量的实验证明了这两种方法的优点和缺点，以及与独立推定相比两者的优点。

一、简介

数据库关系系统（DBMS）中的多个组件都需要针对opeartor结果size（或是selectivities）的合理准确的估计。Cost-based query optimizer使用这些信息来推断后续operator，或最终整个query execution plans的costs。同样滴，query profilers使用它们来为用户提供快速的反馈，作为一种方法，可以在实际执行查询之前检测某些形式的语义错误。Selectivity估计通常依赖于数据库内容的一些近似知识。

对于涉及一个relation中的单个属性的查询，它的结果size依赖于数据库中这个属性的数据分布。近似单属性数据分布的建议技术方案包括基于histogram直方图的技术（采用均匀分布假设是它们中的一个特例）、采样和参数技术（？）。直方图的主要优势在于它几乎不需要运行时开销，而且不要求数据满足概率分布或是多项式，并且，在大多数真实场景的数据库中，有一些直方图可以产生低误差的估计，同时占用相当小的空间（在catalog中大约100 bytes）。因此，直方图是实践中最常用的统计形式（例如，它们被用在DB2、Informix、Ingres、Microsoft、Oracle、Sybase中），并在文献中得到了广泛的研究。我们自己的早期工作已经产生了一种分类法，既包括旧的直方图，也包括几种新的直方图，其中一些新直方图的准确率远远高于前者。

对于涉及到同一个relation中的两个或是多个属性的查询来说，它的结果集大小取决于这些属性的联合数据分布，即，数据库中这些属性组合值的频率。由于这些分布的多维性，并且有大量这样的属性组合值，联合分布的直接近似值会更复杂和昂贵。在实践中，大多数的商业DBMSs会采纳属性值独立假设。在这个假设下，一个relation中的单个属性的数据分布之间互相独立，并且联合数据分布可以从个体分布中派生（用一维直方图近似）。

不幸的是，真实数据很少会满足属性值独立假设。例如，函数依赖关系（functional dependencies）与假设完全相反。此外，还存在一些中间场景。例如，在Employee relation中，salary属性强依赖于age属性是非常自然的（例如，更高/更低的salaries通常会和older/younger age相关）。在这种场景下使用属性值独立假设会导致非常不准确的联合数据分布的近似，进而会导致不准确的查询结果集大小推断和DBMS性能的毁灭性代价。我们意识到只有一种方法可以替代这一假设，即构造多维等深度直方图。但是，根据新的和更准确的直方图类，这种建议似乎是有限的，而且为划分二维空间而提出的启发式技术往往无效。

受到上述问题推动，我们研究了几种相对准确的近似联合数据分布的方法。本文包含了这些努力的结果，并作出了如下贡献：

我们以前的以为分类法中的所有直方图都被推广为多维。我们引入的新直方图类别被证明在获取联合数据分布方面比传统的等深直方图更准确。
在满足各种数学约束的情况下，提供了一种将多维空间划分为给定数量的分区的新技术。该技术与基于Hilbert-numbering的技术并对Muralikrisbna和Dewitt的技术进行了概括，结果表明，该技术可产生明显更好的多维图。
线性代数中的奇异值分解（Singular Value Decomposition，SVD）技术被引入作为一种用少量独立数据分布来近似二维联合数据分布的技术。

大量的实验证明了各种方法的优点和缺点，以及与独立假设相比的好处。