从一张大表读取数据，如何解决性能问题（数据库相关八）

最新推荐文章于 2024-03-14 04:48:26 发布

一生所Ai

最新推荐文章于 2024-03-14 04:48:26 发布

阅读量4.4k

点赞数 1

分类专栏：每天一道面试题文章标签：查询优化

每天一道面试题专栏收录该内容

47 篇文章 7 订阅

订阅专栏

1.项目背景

当数据库单表数据量达到一定程度时，数据查询变得很慢很慢，建立索引已经无法提高查询速度时，该如何对查询速度进行优化呢？

以单表的数据量达到八千万数据，

由于之前的架构设计，数据库设计的原因，直接导致数据库服务器负载过高，cpu 使用率接近百分百，

后端迟迟无法返回数据给前端或返回数据时间高达20-30s，前端不停的请求数据，进一步导致数据库负载增高，差点死亡。

2.临时方案

先备份数据，然后提供最近一段时间的数据查询，满足用户查询近期数据的需求，

而较久远的历史数据，由产品或分析师手动提供查询，当然这只是临时方案，不可长期存在

3.方案比较

方案	优势	不足	性能分析
接入spark	1. 该方案操作简单，只要将数据导入到hive表，然后通过spark jdbc的方式连接即可 2. 可扩展性好，可存储上T的数据	1. 对资源的依赖相对较重，目前大数据这边有10台服务器，1台master,9台slave,对于当前的调度任务来说，资源略显紧张，数据分析师和大数据这表均存在使用，而接入spark大概占据百分之二十的集群资源，导致分析师，调度任务无法再规定时间完成，若需要强行接入spark需要申请新的机器 2.spark优化较难	1. 经过测试查询两亿数据量，查询速度在10s左右，由于数据对时间有分区，业务查询除了比较极端的需求之外，不会全表扫描 2. 查询最近一段时间的数据，查询时间维持在1s以下 3. 经过调试查询速度可维持到100ms左右
数据库分库分表	1．将大表分割为多个小表，大幅度查询的行数，从而提高查询效率， 2．相比于分区，对于单个小表可建立索引，进一步提高查询速度	1. 数据量若大幅增长，分表表数不够，需要重新分表，移数据略显麻烦 2. 将数据导入多个表中，对于查询该表所有数据的统计不大好统 3. 数据表建的太多，看起来凌乱，而且导入历史数据略显麻烦 4. 增加列不大方便浪费存储空间	1. 6千万数据分给为16个表，每个表数据量大概在40w数据左右,查询时间可达200ms以内
数据库分区	1. 和数据库分库分表的思想接近,属于物理存储层面的分库分表，数据量过大（索引查过cpu内存比如4G）时，删除索引查询速度可显著提高 2. 数量若增大，查询速度减慢时，可直接通过语句增加分区个数，提高查询速度	1. 单表数据量过大，对于分区建立索引会降低查询速度 2. 数据库迁移数据困难 3. 多表连接查询效率明显降低 4. 数据插入较慢，不适用于插入频繁操作 5. 浪费存储空间 6.最新版mysql数据库分区有限制8192,	1. 单个分区数据量大概在40w,查询速度可在200ms左右 2. 若分区数据量小，查询速度可更快
接入hbase 接口	1. 列的可以动态增加，并且列为空就不存储数据,节省存储空间. 2. Hbase自动切分数据，使得数据存储自动具有水平scalability. 3. Hbase可以提供高并发读写操作的支持	1. 不支持条件查询,只能通过row key来查询	查询速度可在100ms左右