SAP HANA性能优化(4)——过滤相关优化

nigulasimao

已于 2024-01-02 10:44:11 修改

阅读量1.5k

点赞数 44

分类专栏： HANA 文章标签：数据库 sql

于 2024-01-02 10:31:12 首次发布

本文链接：https://blog.csdn.net/nigulasimao/article/details/135290004

版权

HANA 专栏收录该内容

16 篇文章 5 订阅

订阅专栏

SELECT……WHERE

尽可能早地进行过滤，这里的过滤可以是where条件限制也可以是参数，但是要避免在计算列上使用过滤器

作为查询简化的一部分，优化器将所有投影列拉升到树的顶部，应用简化措施，包括删除不必要的列，然后尽可能地向下推送过滤器，大多数情况下推送到表层。

开发模型的时候，会有许多过滤条件，也就是大家理解WHERE条件的内容，大家要尽量下沉过滤条件，能在底表过滤的都在底表过滤，减少上层运算的数据量。

另外在各种其他优化方式不生效的情况下，使用参数也是一个优化的方法。如下图，增加了开始时间和结束时间，使用的时候加上时间参数限制，不再是全部数据取出来，可以显著地提升效率。

在搜素的时候，应选择特定的字段，避免使用SELECT *

这个与HANA三大特性之一，列式存储息息相关。

列式存储，顾名思义，只需要访问必需的列，极大减少不必要的数据访问。因此我们在进行数据开发的时候，SELECT 后边的字段要非常明确，避免整表查询造成性能消耗。

从跑的结果可以看出，同样是跑同一个模型的1-10月份数据，SELECT * 和SELECT 特定字段时间上是相差很大的。

避免查询中的隐式转换

即使你没有显式编写类型转换操作，系统也可以隐式地生成类型转换。例如，如果在VARCHAR值和DATE值之间进行比较，系统将生成一个将VARCHAR值转换为DATE值的隐式类型转换操作。隐式类型转换是从较低优先级类型到较高优先级类型的转换。如果经常通过查询比较两个列，则最好确保它们从一开始就具有相同的数据类型。

避免隐式类型转换的一种方法是在查询的连接部分使用显式类型转换。

例如，如果一个VARCHAR列与一个DATE值进行比较，并且你知道将DATE值转换为VARCHAR值会得到你想要的结果，建议将DATE值转换为VARCHAR值。如果VARCHAR列只包含形式为'YYYYMMDD'的日期值，则可以与从形式为'YYYYMMDD'的DATE值生成的字符串进行比较。

原始代码：

SELECT * FROM T WHERE date_string < CURRENT_DATE;

推荐代码：

SELECT * FROM T WHERE date_string < TO_VARCHAR(CURRENT_DATE, 'YYYYMMDD');

在HANA中，如果可能，请使用BINARY（＜n＞）或NVARCHAR（＜n＜）数据类型，而不是BLOB或NCLOB（即，当最大＜n＞5000足够大时，可以存储在列或值中的任何数据）。与BLOB或NCLOB值相比，SAP HANA数据库可以更有效地处理BINARY（＜n＞）或NVARCHAR（＜n＜）值。

重排连接条件

引用条件中的某些情况（例如，"A1" - "B1" = 1）可能无法高效处理，并且可能导致在生成的查询计划中CROSS PRODUCT上方出现低效的后连接筛选操作符。

通过将条件重新排列，可以避免潜在的运行时错误，并改进查询性能。但请记住，在重新排列时要小心潜在的运行时错误，并根据实际情况进行测试和验证。

原始代码：

SELECT * FROM TA, TB WHERE a1 - b1 = 1;

推荐代码：

SELECT * FROM TA, TB WHERE a1 = b1 + 1;

原始代码：

SELECT * FROM TA, TB WHERE DAYS_BETWEEN(a1, b1) = -1;

推荐代码：
SELECT * FROM TA, TB WHERE ADD_DAYS(b1, -1) = a1;

使用 exists代替in

与NOT EXISTS相比，NOT IN的处理成本要高得多。如果可能的话，建议使用NOT EXISTS代替NOT IN。

一般来说，NOT IN需要先处理整个子查询，然后在根据提供的条件匹配条目之前再处理整体查询。然而，使用NOT EXISTS时，在检查提供的条件时会返回true或false，因此除非子查询结果非常小，否则使用NOT EXISTS比使用NOT IN要快得多（EXISTS/IN也是如此）。
请注意，在转换为NOT EXISTS时，需要将子查询中的列与外部查询中的列进行正确的比较。这样，可以避免NOT EXISTS中的任何列可能为空值时引发的错误结果。

总之，如果可能的话，请尽量使用NOT EXISTS来替代NOT IN，以提高查询性能。

原始代码：

SELECT * FROM T WHERE a NOT IN (SELECT b FROM S);

推荐代码：

SELECT * FROM T WHERE NOT EXISTS (SELECT * FROM S WHERE S.b = T.a);