月之暗面Kimi代码分析能力评测

PawSQL，在线SQL优化工具

已于 2024-11-20 11:09:02 修改

阅读量2.4k

点赞数 8

分类专栏： PawSQL 文章标签： java 数据库大数据 SQL优化 pawsql sql

于 2024-03-25 08:00:00 首次发布

本文链接：https://blog.csdn.net/PawSQL/article/details/136995276

版权

PawSQL 专栏收录该内容

25 篇文章

订阅专栏

最近打算重构一下PawSQL优化引擎中的OR条件的SELECT重写优化策略的代码，时间有点久，代码有点复杂，看到网上对新出了KIMI评价很高。于是尝试用它来理解一下代码。上传了此优化重写的代码，提问：

第一问，设计思路

KIMI的输出：

这段代码是一个Java类，名为`RuleOrCond4SelectRewrite`，它是`AuditRule`的一个子类，用于优化SQL查询语句中的`OR`条件。以下是对代码设计思路的总结：

1. **类目的**：该类的目的是重写包含`OR`条件的`SELECT`查询语句，以提高查询效率。这通常涉及到将多个`OR`条件分解并重组成可以使用`UNION ALL`或`AND`条件的查询块。

2. **审计方法（`audit`）**：这是类的核心方法，它首先检查传入的`SQLObject`是否为`QueryStatement`类型。如果不是，方法返回`null`。如果是，它会创建一个`RuleAuditResult`对象来存储审计结果。

3. **查询选择的识别**：通过`QueryBlockHelper.findQueryBlockInStatement`方法，找到查询语句中的所有`QueryBlock`对象，并对它们进行遍历处理。

4. **处理`OR`条件**：对于每个`QueryBlock`对象，代码会检查其`WHERE`子句。如果存在`OR`条件，它会使用`SATRewriter.rewrite`方法进行重写，并通过`getOrConditions`方法提取所有的`OR`条件。

5. **条件的独占性**：代码检查提取出的`OR`条件是否互斥（即它们是否可以同时为真）。如果是，它们会被用于构建一个`UNION ALL`查询。

6. **查询重构**：根据查询的不同特点（如是否包含聚合函数、排序、限制等），代码会采取不同的重构策略。例如，如果没有聚合函数和排序，可以使用`UNION ALL`；如果包含排序，可能需要在外部查询块中添加排序。

7. **重写和替换**：重构后的查询会替换原始查询，这通过`QueryBlockHelper.replace`方法实现。审计结果会记录原始的`WHERE`子句和重写后的查询。

8. **分数评估**：`getScore`方法用于评估`OR`条件的重写优先级，基于条件的可索引性和查询的特性给予不同的分数。

9. **辅助方法**：类中还包含了一些辅助方法，如`getUpperObject`用于获取`OR`条件的上层对象，`getWholeCondition`用于获取整个条件对象，`rewriteOrConditions`用于实际执行`OR`条件的重写。

总体来说，这个类的设计思路是通过识别和处理SQL查询中的`OR`条件，将它们重写为更高效的查询形式，从而优化查询性能。代码考虑了多种查询情况，并提供了相应的重写策略。

评价：总体来说，KIMI的理解还是比较准确的，代码基本没有注释，单单通过代码的逻辑，就能够理解代码的含义，还是比较让人惊艳的。特别是第5点条件互斥性、以及第8点分数评估, 作为主逻辑的补充部分，都能理解非常到位。

第二问，查询重写的策略

KIMI的输出：

查询重构的策略主要针对包含`OR`条件的`SELECT`查询语句。在`RuleOrCond4SelectRewrite`类中，根据查询的不同特点，代码实现了几种不同的重构策略。以下是这些策略的详细说明：

1. **无聚合、无排序、无限制的查询**：
  - 如果`QueryBlock`对象不包含聚合函数、没有排序子句、没有限制子句，并且不是聚合查询块，那么可以对`OR`条件进行重构。
  - 对于每个`OR`条件，创建一个新的`QueryBlock`对象的副本，并设置其`WHERE`子句为当前的`OR`条件。
  - 使用`QueryCombined`对象构建`UNION ALL`查询，将所有这些副本组合起来。
  - 如果条件互斥，使用`UNION ALL`操作符；如果不互斥，根据条件是否包含`DISTINCT`关键字来调整查询的`DISTINCT`属性。

2. **包含排序的查询**：
  - 如果`QueryBlock`包含排序子句，需要特别处理排序，因为排序通常依赖于特定的数据集。
  - 首先，创建一个新的`QueryBlock`对象，移除排序子句中的`ORDER BY`表达式，或者调整`LIMIT`子句以确保排序的有效性。
  - 然后，对于每个`OR`条件，创建一个嵌套查询，并将排序列添加到选择列表中。
  - 将这些嵌套查询组合成一个`QueryCombined`对象，使用`UNION ALL`操作符（如果条件互斥）或适当的`AND`/`OR`组合。
  - 最后，将排序子句添加到最外层的查询中，以保持原始查询的排序要求。

3. **包含聚合函数的查询**：
  - 如果查询包含聚合函数，处理会稍微复杂一些，因为聚合函数可能会影响`OR`条件的处理。
  - 首先，从选择列表中提取列引用，并创建一个新的选择列表。
  - 然后，对于每个`OR`条件，创建一个嵌套查询，并将其作为`UNION ALL`的一部分。
  - 在这个过程中，需要确保聚合函数的正确性，并且可能需要在新的选择列表中包含主键或其他唯一标识符。
  - 最后，将这些嵌套查询组合起来，并清除原始查询中的`WHERE`子句、`GROUP BY`子句、`SORT BY`子句和`HAVING`子句。

4. **包含限制的查询**：
  - 如果查询包含`LIMIT`子句，需要考虑`LIMIT`和`OFFSET`的影响。
  - 通常，会创建一个新的`QueryBlock`对象，并复制原始查询的选择列表和`WHERE`子句。
  - 对于每个`OR`条件，创建一个嵌套查询，并将其添加到`QueryCombined`对象中。
  - 根据条件是否互斥，设置`UNION ALL`操作符或适当的`AND`/`OR`组合。
  - 将`LIMIT`子句添加到最外层的查询中，以保持原始查询的限制要求。

这些策略的共同目标是将原始的、可能效率较低的查询重构为更高效的查询形式，同时保持查询结果的一致性。通过这种方式，可以提高数据库查询的性能，尤其是在处理包含多个`OR`条件的复杂查询时。

评价：相比较设计思路的总结，KIMI对于每一种策略的总结就略差一些。首先，分类不完备且不互斥，且和实际分类略有不同；其次，KIMI似乎是有意识地按照其定义的类别的含义进行针对性总结，而忽略和类别名称无关的内容，从而使得它的输出整体上是自洽的。其中对于分数评估，事实上这是评估策略是否实施的主要依据，只有代价比重写前更低时，才会实施策略，而KIMI在它的回答里完全忽略了。

第三问，针对每种策略提供一个案例

KIMI的输出：

当然可以。以下是针对每种查询重构策略的SQL示例：

1. **无聚合、无排序、无限制的查询**：
  假设我们有一个名为`employees`的表，其中包含员工的信息，我们想要选择所有满足以下任一条件的员工记录：
  ```sql
  SELECT * FROM employees WHERE (department = 'Sales' OR department = 'Marketing');
  ```
  重构后的查询可能会使用`UNION ALL`来分开每个条件，并保持它们作为一个整体查询：
  ```sql
  SELECT * FROM employees WHERE department = 'Sales'
  UNION ALL
  SELECT * FROM employees WHERE department = 'Marketing';
  ```

2. **包含排序的查询**：
  如果我们想要根据员工的部门和工资进行排序，并且只选择工资高于某个值的员工：
  ```sql
  SELECT * FROM employees WHERE salary > 50000 ORDER BY department, salary DESC;
  ```
  重构后的查询可能会创建一个外部查询，其中包含排序要求，并在内部使用`UNION ALL`来合并满足不同`OR`条件的查询：
  ```sql
  SELECT * FROM (
    SELECT * FROM employees WHERE salary > 50000 AND department = 'Sales' ORDER BY salary DESC
    UNION ALL
    SELECT * FROM employees WHERE salary > 50000 AND department = 'Marketing' ORDER BY salary DESC
  ) AS sorted_results;
  ```

3. **包含聚合函数的查询**：
  如果我们想要计算每个部门的平均工资，并且只考虑工资高于某个值的员工：
  ```sql
  SELECT department, AVG(salary) AS avg_salary FROM employees WHERE salary > 50000 GROUP BY department;
  ```
  重构后的查询可能会创建一个临时表或子查询，用于处理每个部门的`OR`条件，然后在外层查询中进行聚合：
  ```sql
  SELECT department, AVG(salary) AS avg_salary FROM (
    SELECT department, salary FROM employees WHERE salary > 50000 AND department = 'Sales'
    UNION ALL
    SELECT department, salary FROM employees WHERE salary > 50000 AND department = 'Marketing'
  ) AS subquery GROUP BY department;
  ```

4. **包含限制的查询**：
  如果我们想要从`employees`表中选择满足特定条件的前10名员工记录：
  ```sql
  SELECT * FROM employees WHERE (department = 'Sales' OR department = 'Marketing') LIMIT 10;
  ```
  重构后的查询可能会创建多个查询，每个查询对应一个部门，并使用`UNION ALL`合并结果，同时保持`LIMIT`子句：
  ```sql
  SELECT * FROM employees WHERE department = 'Sales' LIMIT 10
  UNION ALL
  SELECT * FROM employees WHERE department = 'Marketing' LIMIT 10;
  ```
  注意：在实际应用中，可能需要调整`LIMIT`的值以确保最终结果的准确性，因为`UNION ALL`会合并所有结果，可能会超出原始的`LIMIT`。

这些示例展示了如何根据不同的查询特点重构包含`OR`条件的SQL查询，以提高查询性能和效率。

评价：这部分KIMI表现就差了一些，只有第一个举例是正确的。而2、3、4是错误的，错误即使按照它自己在第二问中的总结，也是错误的。譬如对于第2类包含排序的查询，KIMI在第二问的回答中说`最后，将排序子句添加到最外层的查询中，以保持原始查询的排序要求`,而其提供的案例却没有做到这一点；对于第4类包含LIMIT的查询，KIMI在第二问的回答中说`将LIMIT子句添加到最外层的查询中，以保持原始查询的限制要求。`,而其提供的案例却没有做到这一点。

总体评测的感觉是，KIMI对于代码的理解还是比较令人惊艳的；但是基于理解生成案例的能力就比较薄弱。作为一个开发者工具，辅助理解代码，还是非常不错的；同时开发者也需要具有一定的辨别能力，特别是当模型的输出看起来非常`有道理`时，不要被它给欺骗了，毕竟，它确实已经具有了`欺骗`的能力了。

PawSQL往期文章精选

PawSQL 常见问题解答

你真的理解如何将OR重写为UNION吗？

高级SQL优化 | 查询折叠 (Query Folding)

SQL中的NULL值陷阱

关于PawSQL

PawSQL专注数据库性能优化的自动化和智能化，支持MySQL，PostgreSQL，Opengauss等，提供的SQL优化产品包括

PawSQL Cloud，在线自动化SQL优化工具，支持SQL审查，智能查询重写、基于代价的索引推荐，适用于数据库管理员及数据应用开发人员，
PawSQL Advisor，IntelliJ 插件, 适用于数据应用开发人员，可以IDEA/DataGrip应用市场通过名称搜索“PawSQL Advisor”安装。