PostgreSql 数据库统计信息 why when what

最新推荐文章于 2024-07-24 23:09:32 发布

Austindatabases

最新推荐文章于 2024-07-24 23:09:32 发布

阅读量325

点赞数

本文链接：https://blog.csdn.net/liuhuayang/article/details/106682068

版权

统计信息，没有数据是没有的，但统计信息怎么收集，标准是什么，怎么使用，就值得去看看了。

要说统计信息，首先说一个表 pg_statistic ，这个表本身是存储数据库的状态信息，其中信息通过analyze 命令来获得，并存在在这个表里面，并且这个表被用于查询计划中。

既然是统计，那就造成这个表里面的存储的值并不是当时当刻最准确的情况，而是一个当前情况的近似值，pg_statistic还存储关于索引表达式值的统计数据。它们被描述为实际的数据列特别是，starelid引用索引。但是，对于普通的非表达式索引列不做任何条目，因为它与底层表列的条目是冗余的。

实际上，当你打开这个表，会比较失望，因为根本看不懂这张表里面记录了什么，所以知道这张表的存在就好，实际上我们不需要看这样的表，去对应的View --- pg_stats 才是给相关人员可以识别的数据。

借用上图来看看能从这个pg_stats 读出一些什么。

1 表所处的schema

2 表名

3 表的字段名

4 这列的数据的平均宽度（bytes单位）

5 表中的这列值（高频）占总体的行数比，一般用负数来表示，这里 -0.64表示，first_name 这列里面的值平均分布为 0.64%

6 这列的值的体现于具体的占比，与直方图与那些值进行了绑定（值的分配区间）

7 数据的物理存储于列的值分布顺序

等等这些信息。有了这些信息，则对这个表是要走索引或者是表扫描，已经有了底。

另外POSTGRESQL还有自己的特性，继承，由于文字的长度这里就不提了。

这里提一句题外话，使用MYSQL 其实如果 select count(*) 一个大表要求的数据不是很严谨，只是一个大概的值的要求，可以从系统表里面提取一个表的行数，这里postgresql 也可以这样做。（这样的行数的值不一定准确，使用的时候要看逻辑，如果特别要精准的，就不要考虑了）

这时一定有人会问，

1 怎么收集统计信息

2 统计信息怎么能更精确

3 是否可以差异化来做，避免对所有表进行统计信息

1 一般来说收集表的统计信息，使用的命令 analyze 来进行，对大表，ANALYZE会对表内容进行随机抽样，不会监测每一行。所以analyze 大表的速度并不会特别慢。而analyze 如果不指定表名，则针对当前数据库的所有表，分区表，继承表，物化视图等。所以建议如果没有特殊的需求，还是给出表名，有针对的进行手动的统计数据更新。