ETL优化：数据库sql常见优化方法

蕊在花中羞涩

已于 2024-06-22 07:33:46 修改

阅读量89

点赞数

分类专栏： sql相关文章标签：数据库 sql etl

于 2024-06-22 07:33:34 首次发布

原文链接：https://blog.csdn.net/weixin_43703091/article/details/138522665

版权

sql相关专栏收录该内容

5 篇文章 0 订阅

订阅专栏

下面我们就聊一聊sql优化的一些常见方法：

1）尽量不要用select * from table，除非需要返回数据库表的全部字段，否则不要返回用不到的任何字段。因为select * 会导致全表扫描，效率比较低。

2）where子句及order by涉及的列尽量建索引，不一定要全部建索引，依业务情形而定。对于多条where子句都用到的列，建议建索引。索引并不是越多越好，索引固然可以提高相应的select的效率，但同时也降低了insert及update 的效率。

3）尽量避免在 where 子句中使用 != 或 <> 操作符，否则引擎将会放弃使用索引而进行全表扫描。对于不等于这种情况，可考虑改为范围查询解决。

4）尽量避免在 where 子句中使用 or 来连接条件，如果一个字段有索引，一个字段没有索引，引擎将放弃使用索引而进行全表扫描，如：

select id from person_info where age=10 or name= '张三'；

可以这样查询：

select id from person_info where age = 10
union all
select id from person_info where name= '张三'

5）尽量避免在 where 子句中对字段进行 null 值判断，因为空判断将导致全表扫描，而不是索引扫描。对于空判断这种情况，可以考虑对这个列创建数据库默认值。如：

//nu11判断将会导致全表扫描
select * from person info where name is null;
//可以考虑在经常需要nul1值判断的列，设为默认值，例如空字符串
select * from person info where name = '';

6）in 和 not in 也要慎用，否则会导致全表扫描，如：

select id from person_info where age in(1,2,3)

对于连续的数值，能用 between 就不要用 in 了：

select id from person_info where age between 1 and 3

很多时候用 exists 代替 in 是一个好的选择：

select age from a where age in(select age from b)

用下面的语句替换：

select age from a where exists(select age from b where b.age=a.age)；

7）尽量避免左右模糊查询，这样会导致索引失效，进而全表查询，如：select id from person_info where name like ‘%abc%’，可以使用右侧模糊查询，这样是可以索引查找的，如：select id from person_info where name like ‘abc%’；

8）如果在 where 子句中使用参数或对字段进行表达式操作，也会导致全表扫描，如：

select id from person_info where age/2 = 10

应改为: select id from person_info where age= 10*2；

9）应尽量避免在where子句中对字段进行函数操作，这将导致引擎放弃使用索引而进行全表扫描。函数、算术运算或其他表达式运算通常将导致全表扫描，对于这种情况，可以考虑冗余部分数据到表中。

10）在使用索引字段作为条件时，如果该索引是复合索引，那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引，否则该索引将不会被使用，并且应尽可能的让字段顺序与索引顺序相一致。

11）update 语句，如果只更改1、2个字段，不要update全部字段，否则频繁调用会引起明显的性能消耗，同时带来大量日志。

12）对于多张大数据量（这里几百条就算大了）的表JOIN，要先分页再JOIN，否则逻辑读会很高，性能很差。

13）select count(*) from table；这样不带任何条件的count会引起全表扫描，并且没有任何业务意义，是一定要杜绝的。可以改为select count(id) from table。

14）尽量使用数字型字段，若只含数值信息的字段尽量不要设计为字符型，这会降低查询和连接的性能，并会增加存储开销。

15）尽可能的使用varchar代替char，因为首先变长字段存储空间小，可以节省存储空间，其次对于查询来说，在一个相对较小的字段内搜索效率显然要高些。

表分区是一种数据库管理技术，用于将大表按照一定的规则划分成更小的、更易管理的子集，
每个子集被称为分区。表分区通常能够提高查询性能、简化数据维护和管理，以及改善数据存储的效率。以下是一些表分区的常见概念和用法：

1. **范围分区（Range Partitioning）：**
- 按照列的范围值进行划分。例如，按照日期范围将数据划分为每个月或每年一个分区。

2. **列表分区（List Partitioning）：**
- 按照列的离散值进行划分。例如，按照国家或地区将数据划分为不同的分区。

3. **哈希分区（Hash Partitioning）：**
- 使用哈希函数将数据均匀地分布到多个分区中，通常用于均匀分散数据负载的情况。

4. **散列子分区（Subpartitioning）：**
- 在每个分区内再进行进一步的分区，通常是在范围、列表、或哈希分区的基础上。

5. **复合分区（Composite Partitioning）：**
- 结合多种分区策略，例如先按照范围分区，然后在每个范围内按照列表分区。

6. **分区键（Partition Key）：**
- 用于指定分区的列或列集合。分区键的选择是关键的，它直接影响到数据的分布和查询性能。

7. **分区表维护：**
- 支持动态增加和删除分区，使得表的维护更加灵活。这对于大型表的数据管理和维护提供了更好的控制。

8. **分区索引（Partitioned Index）：**
- 与分区表一起使用的索引，以提高对分区表的查询性能。

表分区的优势在于可以减少查询时需要扫描的数据量，提高查询效率，并且简化数据的维护和管理。然而，表分区并不是适用于所有情况的解决方案，需要根据具体的业务需求和数据库使用情况来决定是否使用分区表。在使用表分区时，确保选择适当的分区策略和分区键，以充分发挥分区的优势。