高性能MySQL 笔记第四章 Schema与数据类型优化

子夕听雨

于 2020-11-12 18:53:16 发布

阅读量209

点赞数

分类专栏：数据库杂书摘录 & 读书笔记文章标签： mysql 数据库 sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lbllol365/article/details/109651913

版权

杂书摘录 & 读书笔记同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

Schema与数据类型优化

选择优化的数据类型

几个简单的原则：

更小的通常更好：应该尽量使用可以正确存储数据的最小数据类型
简单就好：简单数据类型的操作通常需要更少的CPU周期
尽量避免NULL

整数类型

有可选的UNSIGNED属性，表示不允许负值，这大致可以使正数的上限提高一倍

有符号和无符号类型使用相同的存储空间，并具有相同的性能

MySQL可以为整数类型指定宽度，但对于存储和计算来说，INT(1)和INT(20)是相同的

实数类型

FLOAT使用4字节，DOUBLE使用8字节，但MySQL使用DOUBLE作为内部浮点计算的类型

FLOAT和DOUBLE用作浮点的近似运算

尽量只在对小数进行精确计算时才使用DECIMAL。

数据量较大时，考虑使用BIGINT代替DECIMAL，根据小数的位数乘以相应的倍数即可。

字符串类型

VARCHAR

用于存储可变长字符串，仅使用必要的空间。如果设置ROW_FORMAT=FIXED，每一行都会使用定长存储，浪费空间。

以下情况使用VARCHAR：字串列的最大长度比平均长度大很多；列的更新很少；使用了像UTF-8这样复杂的字符集，每个字符都使用不同的字节数进行存储。

CHAR

是定长的。

适合存储很短的字符串，或者所有值都接近同一个长度，比如，CHAR非常适合储存密码的MD5值，因为是一个定长的值。

也适用于经常变更的数据。

BINARY和VARBINARY

适用于用于需要储存二进制数据，并且希望MySQL使用字节码而不是字符进行比较时。

BLOB和TEXT

BLOB采用二进制储存，没有排序规则或者字符集

TEXT采用字符方式储存，有排序规则和字符集

MySQL只对这两种数据类型每个列的最前max_sort_length字节而不是整个字符串做排序。

MySQL不能将BOLB和TEXT列全部长度的字符串进行索引，也不能使用这些索引消除排序。

使用枚举代替字符串类型

枚举列可以把一些不重复的字符串存储成一个预定义的集合。

MySQL在内部会将每个值在列表中的位置保存为整数。

枚举缺点：添加或者删除字串必须使用ALTER TABLE。有一定的性能开销

日期和时间类型

DATETIME

能保存大范围的值

与时区无关

TIMESTAMP

和UNIX时间戳相同

表示范围小（1970年到2038年）

依赖于时区

应该尽量使用TIMESTAMP，因为空间效率更高

位数据类型

BIT

可以使用BIT列在一列中存储一个或者多个true/false值

BIT的行为因存储引擎而异。MyISAM会打包存储所有的BIT列，可节省空间，其他引擎不会。

MySQL把BIT当作字符串类型，检索BIT(1)的值时，结果是一个包含二进制0或1的字串，而不是ASCII码的"0"或者"1"。在数字上下文的场景中，结果是位字符串转换成的数字。

应该谨慎，最好避免使用BIT类型

SET

如果需要保存很多true/false值，可以考虑合并到一个SET数据类型。

缺点时改变列的定义的代价较高，一般来说，也无法在SET列上通过索引查找。

一种替代SET的方式是使用一个整数包装一系列的位。缺点是查询语句更难写，更难理解。

选择标识符

当选择标识列的类型时，不仅仅需要考虑存储类型，还需要考虑MySQL对这种类型怎么执行计算和比较。

一旦选定了一种类型，要确保在所有关联表中都使用同样的类型，类型之间需要精确匹配。

在满足值的范围的需求，并且预留未来增长空间的前提下，应该选择最小的数据类型。

整数类型

整数通常是标识列最好的选择，因为速度快而且可以自增

ENUM和SET类型

一个糟糕的选择，可能对某些只包含固定状态或者类型的静态“定义表”较为适用。

字符串类型

一个糟糕的选择，应尽量避免。因为很消耗空间，通常比数字类型慢。尤其注意在MyISAM表里使用字串作为标识列，该类表默认对字符串使用压缩索引，会导致查询慢很多。

对完全随机的字串也要多注意，比如MD5()、UUID()产生的字串，这些函数生成的值会分布在很大的空间内，会导致INSERT以及一些SELECT语句很慢。

MySQL schema设计中的陷阱

太多的列

太多的关联

MySQL限制了每个关联操作最多只能有61张表。

过度使用枚举

枚举类型和集合类型混用

尽量不要使用NULL，但也不要怕使用NULL

范式与反范式

范式化模型要求满足：

每个字段只包含最小的信息属性
在满足1的基础上，模型含有主键，非主键字段依赖主键
在满足2的基础上，模型非主键字段不能相互依赖

不满足范式化的模型即为反范式化模型

范式优点：

范式化的更新操作通常比反范式化要快
当数据较好范式化时，只需要修改更少的数据
表通常更小，执行操作会更快
更少的需要DISTINCT或者GROUP BY语句

缺点：

通常需要关联

反范式的优点：

避免了关联
可以使用更有效的索引策略

混用范式化与反范式化是最好的办法

缓存表和汇总表

如果需要计算24小时内的操作次数，可以替换成每小时生成一张汇总表或者以每个小时的汇总表为基础，把前23小时的数据相加，再加上实时查询的时间差内的数据。

加快ALTER TABLE操作的速度

MySQL执行大部分修改表结构操作的方法是用新的结构创建一个空表，从旧表中查出搜偶的数据插入新表，然后删除旧表，可能需要花费很长的时间。

加快ALTER TABLE操作的方法：

先在一台不提供服务的机器上执行ALTER TABLE操作，然后和提供服务的主库进行切换
”影子拷贝“，用要求的表结构创建一张和源表无关的新表，然后通过重命名和删表操作交换两张表

ALTER COLUMN会直接修改.frm文件而不会涉及表数据，速度很快。

.frm 表定义文件。.myd 数据文件， .myi 索引文件

只修改.frm文件

创建一张拥有相同结构的空表，并进行所需要的修改
执行FLUSH TABLES WITH READ LOCK。这会关闭所有正在使用的表，并且禁止任何表被打开
交换.frm文件
执行UNLOCK TABLES 来释放第二步的读锁

快速创建MyISAM索引

为了高效地载入数据到MyISAM表中，可以先禁用索引、载入数据，然后重新启用索引，此办法对唯一索引无效：

ALTER TABLE test.load_data DISABLE KEYS
-- Load All Data
ALTER TABLE test.load_data ENABLE KEYS

对现代版本的InnDB，可以先删除所有的非唯一索引，然后增加新的列，最后重新创建删除掉的索引。

也可以用交换数据库文件的方法来加速上述操作：

用需要的表结构创建一张表，但是不包括索引。
载入数据到表中以构建.myd文件
按照需要的结构创建另一张空表，这次要包含索引。这会创建需要的.frm和.myi文件
获取读锁并刷新表
重命名第二张表的.frm和.myi文件，让MySQL认为是第一张表的文件
释放读锁
使用REPAIR TABLE来重建表的索引。会通过排序来构建所有索引，包括唯一索引

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
高性能MySQL 笔记第四章 Schema与数据类型优化

Schema与数据类型优化选择优化的数据类型几个简单的原则：更小的通常更好：应该尽量使用可以正确存储数据的最小数据类型简单就好：简单数据类型的操作通常需要更少的CPU周期尽量避免NULL整数类型有可选的UNSIGNED属性，表示不允许负值，这大致可以使正数的上限提高一倍有符号和无符号类型使用相同的存储空间，并具有相同的性能MySQL可以为整数类型指定宽度，但对于存储和计算来说，INT(1)和INT(20)是相同的实数类型FLOAT使用4字节，DOUBLE使用8字节，但MySQL使用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。