UTF-8 吧啦吧啦

最新推荐文章于 2024-03-19 17:13:46 发布

XP-Code

最新推荐文章于 2024-03-19 17:13:46 发布

阅读量600

点赞数

分类专栏：笔记文章标签： mysql 数据库 database

本文链接：https://blog.csdn.net/Wisimer/article/details/121907359

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Unicode编码的诞生，是为了解决之前各国的计算机文字编码自成一体的问题。不同国家采用不同的编码，自己用还算正常，但是跨文化交流必然会出问题，更无法解决“在同一篇文档里又要显示中文又要显示韩文还要显示日文”之类的问题。
但是Unicode(有个相关的名字是UCS，Universal Coded Character Set，二者基本等价)只确定了码值，或者说，只分配了逻辑代号。至于这些逻辑代号在实际使用中如何存储，如何传输，那是另一个问题。而UTF-8，就是解决存储和传输等问题的“实际方案”。UTF的全名是Unicode Transformation Format，也就是“Unicode变换格式”。这里的“变换”，基本可以类比为：要告诉别人明天早上九点来开会，到底是发邮件呢，还是打电话呢，还是写纸条呢，还是直接去敲门打招呼呢？。
所以，Unicode的变换格式不只UTF-8一种，还有UTF-16、UTF-32等等。UTF-8使用比较普遍，因为UTF-8它是变长编码，如果只传输ASCII字符，则每个字符只需要一个字节。因此，如果数据中包含大量的ASCII字符，那么UTF-8可以节省很多存储空间。

MySQL之前的的字符集(character set)是utf8(更准确的名字是utf8mb3，一个字符最多使用3个字节来存储)，只能存储编码值从0x000到0xFFFF之间的字符。然而，emoji表情字符的码值超过了0xFFFF，长度为4个字节，按照UTF-8规范，存储时需要用4个字节。正因为如此，MySQL才提供了utf8mb4的字符集。如果把数据库表的字符集设定为utf8mb4，就可以正常存储包含表情字符的文本了。

utf8mb4_general_ci、utf8mb4_0900_ai_ci、utf8mb4_bin 都是针对utf8mb4编码的collation。我们不但需要给每个字符分配编码，让它们能存储、能传输，还需要定义一套关系来组织它们，找到它们之间的联系。这套关系的定义，就是collation。collation定义了哪个字符和哪个字符是“等价”的。所以如果指定“不区分大小写”，那么a和A，e和E就是等价的，这样查找时就会方便很多。但这还不够，世界上的文字很多，所以才会有“不区分音调”的要求，这时候e、ē、é、ě、è就是等价的，那么假设我们要进行拼音查找，只要按e去找就可以全部列出来，很方便。甚至，它们也和ê、ë也是等价的，这样就更方便了。

UTF-8的编码规则：