MySQL数据库编码

loopnz_

已于 2023-08-09 23:17:18 修改

阅读量119

点赞数

分类专栏： DB 文章标签：数据库

于 2023-08-06 23:41:16 首次发布

本文链接：https://blog.csdn.net/qq_27129213/article/details/132137654

版权

DB 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

UTF-8是使用1~4个字节，一种变长的编码格式，字符编码。mb4即most bytes 4，使用4个字节来表示完整的UTF-8。

mysql的 UTF8 编码最大字符长度为 3 字节，如果遇到 4 字节的宽字符就会插入异常了。三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xffff，也就是 Unicode 中的基本多文种平面(BMP)。也就是说，任何不在基本多文本平面的 Unicode字符，都无法使用 Mysql 的 UTF8 字符集存储。包括 Emoji 表情(Emoji 是一种特殊的 Unicode 编码，常见于 ios 和 android 手机上)，和很多不常用的汉字，以及任何新增的 Unicode 字符等等。

utf8mb4_bin：将字符串每个字符用二进制数据编译存储，区分大小写，而且可以存二进制的内容。

utf8mb4_general_ci：ci即case insensitive，不区分大小写。没有实现Unicode排序规则，在遇到某些特殊语言或者字符集，排序结果可能不一致。但是，在绝大多数情况下，这些特殊字符的顺序并不需要那么精确。

utf8mb4_unicode_ci：是基于标准的Unicode来排序和比较，能够在各种语言之间精确排序，Unicode排序规则为了能够处理特殊字符的情况，实现了略微复杂的排序算法。

总结：general_ci 更快，unicode_ci 更准确。但相比现在的CPU来说，它远远不足以成为考虑性能的因素，索引涉及、SQL设计才是。使用者更应该关心字符集与排序规则在db里需要统一。（可能产生乱码的字段不要作为主键或唯一索引。例如：以 url 来作为唯一索引，但是它记录的有可能是乱码。）

首先，ci用于不区分大小写的排序和比较。这意味着它适用于文本数据，大小写并不重要。其他类型的排序规则是cs（区分大小写），用于区分大小写的文本数据，以及bin（编码需要匹配），逐位排序，适用于真正编码的二进制数据（例如，包括Base64）的字段。区分大小写的排序会导致一些奇怪的结果，区分大小写的比较会导致重复的值只在字母大小写上有所不同。

loopnz_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MySQL数据库编码

其他类型的排序规则是cs（区分大小写），用于区分大小写的文本数据，以及bin（编码需要匹配），逐位排序，适用于真正编码的二进制数据（例如，包括Base64）的字段。区分大小写的排序会导致一些奇怪的结果，区分大小写的比较会导致重复的值只在字母大小写上有所不同。utf8mb4_unicode_ci：是基于标准的Unicode来排序和比较，能够在各种语言之间精确排序，Unicode排序规则为了能够处理特殊字符的情况，实现了略微复杂的排序算法。UTF-8是使用1~4个字节，一种变长的编码格式，字符编码。
复制链接

扫一扫