MySQL 字符集
MySQL5.7默认字符集是Latin1拉丁,MySQL8默认字符集是UTF-8 (utf8mb4)
字符集级别可以分为:服务器级别、数据库级别、表级别、列级别
UTF8字符集
在 MySQL 中,“utf8” 和 “utf8mb4” 是两种字符集(字符编码)选项。
-
utf8:
“utf8” 是 MySQL 5.5.3 及之前版本的默认字符集,它支持最多三字节的 UTF-8 编码。尽管名字中带有 “utf8”,但实际上它并不支持所有的 Unicode 字符,包括一些特殊字符如表情符号等,因为它只支持最多三个字节的编码。 -
utf8mb4:
“utf8mb4” 是 MySQL 5.5.3 之后版本引入的字符集选项,也是 MySQL 5.5.3 及之后版本的默认字符集。“mb4” 代表 “most bytes 4”,也就是它支持最多四字节的 UTF-8 编码。因此,“utf8mb4” 能够完全支持 Unicode 字符集,包括表情符号等特殊字符。
对于大多数情况下,特别是需要支持表情符号、特殊符号或其他非常用字符的情况,建议使用 “utf8mb4” 字符集,以免出现字符存储和处理的问题。
如果你的 MySQL 版本是 5.5.3 或更高,一般情况下推荐使用 “utf8mb4” 字符集,特别是在创建新的数据库或表时。当然,如果已经在使用 “utf8”,也可以在需要时通过修改表的字符集来切换到 “utf8mb4”。
请注意,在 MySQL 中,“utf8” 和 “utf8mb4” 的存储方式略有不同,“utf8mb4” 的存储空间会稍微多一些,因为它支持更多的字节。所以在切换字符集时,也要注意已有数据的存储空间可能会增加。
比较规则
在 MySQL 中,字符集比较规则后缀用于指定不同的排序规则。排序规则影响字符在比较和排序时的行为,因为在不同的语言和地区,对字符的排序方式可能有所不同。MySQL 支持多种字符集比较规则后缀,常用的有以下几种:
-
_bin
:表示二进制排序,它是最快速的排序方式,直接按照字符的二进制编码进行排序。注意,这种排序方式对大小写敏感,而且不会考虑字符的语言和地区差异。 -
_ci
:表示不区分大小写的排序,它会忽略字符的大小写,进行排序。例如,“A” 和 “a” 在排序时会被认为相等。 -
_cs
:表示区分大小写的排序,它会根据字符的大小写进行排序。例如,“A” 和 “a” 在排序时会被认为不相等。 -
_ai
:表示不区分大小写的排序并且对字符进行重音处理,也称为accent-insensitive排序。例如,对于一些特定字符,如字母 “é” 和 “e” 在排序时会被认为相等。 -
_as
:表示区分大小写的排序并且对字符进行重音处理,也称为accent-sensitive排序。例如,对于一些特定字符,如字母 “é” 和 “e” 在排序时会被认为不相等。
在字符集名称后添加上述后缀,可以指定不同的排序规则。例如,“utf8mb4_general_ci” 表示使用 “utf8mb4” 字符集,并采用不区分大小写的排序规则。
请注意,不同的字符集可能支持不同的排序规则,而且不是所有字符集都支持所有的排序规则。在选择排序规则时,应根据具体的需求和数据特性选择合适的排序方式。
# 查看gbk比较规则
SHOW COLLATION LIKE 'gbk%';
# 查看utf8比较规则
SHOW COLLATION LIKE 'utf8%';
# 查看具体数据库字符集
SHOW CREATE DATABASE 数据库名;
# 修改具体数据库字符集
# 修改了数据库默认字符集比较规则后,原来已经创建的表字符集不会改变,如果需要应该再单独修改
ALTER DATABASE 数据库名 DEFAULT CHARACTER SET 'utf8' COLLATE 'utf8_general_ci';
说明:
utf8_unicode_ci和utf8_general_ci对中、英文没有实质差别
utf8_general_ci校对速度快,准确度稍微差
utf8_unicode_ci准确度高,但校对速度慢
一般情况使用utf8_general_ci就够了,但如果需要用到德语、法语或者俄语,一定要用utf8_unicode_ci。