Table of Contents
除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度,一般以整型值为主的表在千万级
以下,字符串为主的表在五百万
以下是没有太大问题的。而事实上很多时候MySQL单表的性能依然有不少优化空间,甚至能正常支撑千万级以上的数据量:
字段
-
尽量使用
TINYINT
、SMALLINT
、MEDIUM_INT
作为整数类型而非INT
,如果非负则加上UNSIGNED
-
VARCHAR
的长度只分配真正需要的空间 -
使用枚举或整数代替字符串类型
-
尽量使用
TIMESTAMP
而非DATETIME
, -
单表不要有太多字段,建议在20以内
-
避免使用NULL字段,很难查询优化且占用额外索引空间
-
用整型来存IP
索引
-
索引并不是越多越好,要根据查询有针对性的创建,考虑在
WHERE
和ORDER BY
命令上涉及的列建立索引,可根据EXPLAIN
来查看是否用了索引还是全表扫描 -
应尽量避免在
WHERE
子句中对字段进行NULL
值判断,否则将导致引擎放弃使用索引而进行全表扫描 -
值分布很稀少的字段不适合建索引,例如"性别"这种只有两三个值的字段
-
字符字段只建前缀索引
-
字符字段最好不要做主键
-
不用外键,由程序保证约束
-
尽量不用
UNIQUE
,由程序保证约束 -
使用多列索引时主意顺序和查询条件保持一致,同时删除不必要的单列索引
查询SQL
-
可通过开启慢查询日志来找出较慢的SQL
-
不做列运算:
SELECT id WHERE age + 1 = 10
,任何对列的操作都将导致表扫描,它包括数据库教程函数、计算表达式等等,查询时要尽可能将操作移至等号右边 -
sql语句尽可能简单:一条sql只能在一个cpu运算;大语句拆小语句,减少锁时间;一条大sql可以堵死整个库
-
不用
SELECT *
-
OR
改写成IN
:OR
的效率是n级别,IN
的效率是log(n)级别,in的个数建议控制在200以内 -
不用函数和触发器,在应用程序实现
-
避免
%xxx
式查询 -
少用
JOIN
-
使用同类型进行比较,比如用
'123'
和'123'
比,123
和123
比 -
尽量避免在
WHERE
子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描 -
对于连续数值,使用
BETWEEN
不用IN
:SELECT id FROM t WHERE num BETWEEN 1 AND 5
-
列表数据不要拿全表,要使用
LIMIT
来分页,每页数量也不要太大
引擎
目前广泛使用的是MyISAM和InnoDB两种引擎:
MyISAM
MyISAM引擎是MySQL 5.1及之前版本的默认引擎,它的特点是:
-
不支持行锁,读取时对需要读到的所有表加锁,写入时则对表加排它锁
-
不支持事务
-
不支持外键
-
不支持崩溃后的安全恢复
-
在表有读取查询的同时,支持往表中插入新纪录
-
支持
BLOB
和TEXT
的前500个字符索引,支持全文索引 -
支持延迟更新索引,极大提升写入性能
-
对于不会进行修改的表,支持压缩表,极大减少磁盘空间占用
InnoDB
InnoDB在MySQL 5.5后成为默认索引,它的特点是:
-
支持行锁,采用MVCC来支持高并发
-
支持事务
-
支持外键
-
支持崩溃后的安全恢复
-
不支持全文索引
总体来讲,MyISAM适合SELECT
密集型的表,而InnoDB适合INSERT
和UPDATE
密集型的表
0、自己写的海量数据sql优化实践
首先是建表和导数据的过程。
参考https://nsimple.top/archives/mysql-create-million-data.html
有时候我们需要对大数据进行测试,本地一般没有那么多数据,就需要我们自己生成一些。下面会借助内存表的特点进行生成百万条测试数据。
- 创建一个临时内存表, 做数据插入的时候会比较快些
SQL
-- 创建一个临时内存表DROP TABLE IF EXISTS `vote_record_memory`;CREATE TABLE `vote_record_memory` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `user_id` varchar(20) NOT NULL DEFAULT '',