postgresql大表join优化

本文探讨了在PostgreSQL中遇到的大表JOIN操作的性能问题。通过分析优化前的SQL执行计划,发现并行顺序扫描了表f_invoice_item,尽管存在索引f_invoice_item_invoice_id_idx,但并未使用。通过调整SQL和优化执行计划,最终将执行时间从85秒降低到2.4秒,实现了近40倍的性能提升。
摘要由CSDN通过智能技术生成

postgresql大表join优化

一、背景

1、数据量:

表名 数据量
f_invoice 87346130
f_invoice_item 97535867

2、索引:

表:f_invoice_item

CREATE INDEX f_invoice_item_order_item_id_idx ON ins_dw_prd12.f_invoice_item USING btree (order_item_id)
CREATE INDEX f_invoice_item_invoice_id_idx ON ins_dw_prd12.f_invoice_item USING btree (invoice_id) WITH (fillfactor='100')
​

表:f_invoice

CREATE INDEX idx_f_invoice_gin ON ins_dw_prd12.f_invoice USING gin (source_type, invoice_type, invoice_status, invoice_title, invoice_date, seller_taxer_code, shop_id, create_time)
CREATE INDEX idx_f_invoice_invoice_date ON ins_dw_prd12.f_invoice USING btree (invoice_date) WITH (fillfactor='100')
CREATE INDEX idx_f_invoice_seller_taxer_code ON ins_dw_prd12.f_invoice USING btree (seller_taxer_code) WITH (fillfactor='100')
CREATE INDEX idx_invoice_createtime_btree ON ins_dw_prd12.f_invoice USING btree (create_time) WITH (fillfactor='100')
​

 

二 、优化前

sql:

explain(analyse, timing)
SELECT count(*)
from (SELECT fi.invoice_id
      FROM ins_dw_prd12.f_invoice fi
      WHERE (fi.seller_taxer_code in ('91320200704046760T', '91340100149067617J', '91320214MA1YGE8F94') and
             fi.create_time >= '2020-01-01 00:00:00' and fi.create_time <= '2020-01-31 00:00:00')) AS mm
         INNER JOIN ins_dw_prd12.f_invoice_item fit ON fit.invoice_id = mm.invoice_id
         inner join ins_dw_prd12.f_invoice m on m.invoice_id = mm
PostgreSQL 是一个功能强大的开源关系型数据库管理系统,对于大表查询的优化通常涉及多个方面,旨在提高性能和资源利用率。以下是几个关键的优化策略: 1. **分区(Partitioning)**:将大表分解成更小、更易管理的部分,比如按时间范围、键值等进行分区,这有助于减少I/O操作并加快查询速度。 2. **索引(Indexing)**:创建合适的B树或哈希索引可以帮助快速定位数据,特别是对于经常用于 WHERE 子句中的列。避免全表扫描是非常重要的。 3. **批量处理(Batch Processing)**:通过调整 `设置work_mem` 或 `maintenance_work_mem` 参数,控制一次性加载到内存的数据量,减少磁盘 I/O 操作。 4. **查询优化器(Query Planner)**:理解并使用 `EXPLAIN` 命令分析查询计划,找出瓶颈,可能需要调整JOIN顺序或添加合适的连接条件。 5. **材料化视图(Materialized Views)**:预先计算结果并存储起来,当后续查询时可以直接使用,减少了实时计算的负担。 6. **存储过程(Stored Procedures)**:使用存储过程可以封装复杂的业务逻辑,减少网络传输,并且在执行过程中可能有更好的缓存机会。 7. **分区合并(Partition Consolidation)**:定期检查并手动或自动合并分区,以减少表的数量和大小。 8. **分片(Sharding)**:在分布式环境下,将数据分布在多个物理服务器上,如果应用支持,可以显著提高读写性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值