前言
近期新建了一张表用来存取客户近30天的资产信息数据量高于3个亿,建表时创建了分区,前台查询单个用户数据时及其缓慢,之后让etl加了索引,稍微好了一些。
问题
功能上线后,由于查询并发较高,查询缓慢,导致大量链接占用出现项目卡顿。
处理
经过排查,发现分区只在数据跑批时起到了一定作用,加快数据的插入,对于查询却没起到多大作用,因为分区根据日期来分,前面讲到是近30天的数据,这样的话查询要分30次,并发一高必然影响效率。索引 被etl加成了分区的,如此基本上没起到什么作用,因为分区后的数据,每个分区的索引意义不大,在查询30个分区的时候就已经是浪费时间了。最终取消了分区,增加了全局索引。取消分区只是在insert数据时缓慢,但对应sp只在夜间运行,消耗点时间没什么问题。
总结
表创建时加了分区以及索引。不料主键索引加在了分区上。上线后查询较慢,数据连接较大导致项目卡顿。数据内容为客户近30日的资产信息,起初创建分区为了新增数据方便。但真正查询时影响效率。分区有范围分区、哈希分区、列表分区、组合分区等。大数据情况下用分区表是好,但不是绝对的,要结合具体的应用场景,并且索引也非常关键,有无索引对查询效率影响是天壤之别。
问题: 查询资产时以天分区,查询30次,每个分区中只取1条数据,影响查询效率。
处理: 取消分区,增加全局索引。
全局索引与分区索引的区别:全局索引可以分区,也可以是不分区索引;如果有分区后创建全局索引,维护起来比较麻烦。