直方图(Histogram)是 RDBMS 中提供的一种基础的统计信息,最典型的用途是估计查询谓词的选择率,以便选择优化的查询执行计划。常见的直方图种类有:等宽直方图、等高直方图、V-优化的直方图,MaxDiff 直方图等等。RDBMS 产品最初使用的直方图非常简单(只有一个桶),后来逐步演化到等宽直方图、等高直方图等。MariaDB 10.0.2 就已在 server 层实现了直方图功能,参考Take into account the selectivity 和 Histogram based statistics。MySQL 在8.0.0 中也引入了直方图,参考WL#8706和WL8707。
MySQL 直方图的功能
直方图会持久化存储到一个新的系统表 mysql.column_stats,表名与 MariaDB 的一样,但是定义是不同的。直方图的主要数据保存在一个 JSON 类型的名为 histogram 的列中。因为 8.0 的字典表都采用了 InnoDB 引擎,这个表也不例外。 该特性支持所有的数据类型,包括数值类型、字符串、大对象、枚举类型等,也支持 GENERATED COLUMN。
MySQL 支持两种类型的直方图,第一种是等宽直方图的一种特殊情况,每个桶只有一个值,因此只需要保存该值和累积的频率。另一种是等高直方图,每个桶需要保存下界、上界、累积频率以及不同值的个数(Number of Distinct Value,NDV)。这两种直方图与 Oracle 的是类似的,见Histograms Part 1/Part 2/Part 3。
执行 ANALYZE TABLE [table] UPDATE HISTOGRAMS 命令可以产生表上各列的直方图,默认情况下这些信息会被复制到备库。
在文件 scripts/mysql_system