MySql字符集与比较规则
在MySQL8.0版本之前,默认字符集为 latin1
,utf8字符集指向的是 utf8mb3
,网站开发人员在数据库
设计的时候往往会将编码修改为utf8字符集。如果遗忘修改默认的编码,就会出现乱码的问题。从MySQL8.0开始,数据库的默认编码将改为 utf8mb4
,从而避免上述乱码的问题。
查看默认使用的字符集
:
show variables like 'character%';
# 或者
show variables like '%char%';
1. utf8与utf8mb4
utf8
字符集表示一个字符需要使用1~4个字节,但是我们常用的一些字符使用1~3个字节就可以表示
了。而字符集表示一个字符所用的最大字节长度,在某些方面会影响系统的存储和性能,所以设计
MySQL的设计者偷偷的定义了两个概念:
utf8mb3(most bytes 3)
:阉割过的 utf8 字符集,只使用1~3个字节表示字符。utf8mb4(most bytes 4)
:正宗的 utf8 字符集,使用1~4个字节表示字符。
2. 比较规则
MySQL版本一共支持41种字符集,其中的 Default collation
列表示这种字符集中一种默认
的比较规则,里面包含着该比较规则主要作用于哪种语言,比如 utf8_polish_ci
表示以波兰语的规则
比较, utf8_spanish_ci
是以西班牙语的规则比较, utf8_general_ci
是一种通用的比较规则。
后缀表示该比较规则是否区分语言中的重音、大小写。具体如下:
后缀 | 英文释义 | 描述 |
---|---|---|
_ai | accent insensitive | 不区分重音 |
_as | accent sensitive | 区分重音 |
_ci | case insensitive | 不区分大小写 |
_cs | case sensitive | 区分大小写 |
_bin | binary | 以二进制方式比较 |