MySQL出现乱码怎么办？（字符集的理解）--上

最新推荐文章于 2023-11-07 17:19:48 发布

See_NUMB

最新推荐文章于 2023-11-07 17:19:48 发布

阅读量520

点赞数

分类专栏： mysql 文章标签： mysql 数据库 sql

本文链接：https://blog.csdn.net/See_Csdn_/article/details/115195519

版权

mysql 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文介绍了字符集的概念，包括ASCII、ISO 8859-1、GB2312、GBK和UTF8，并详细讲解了MySQL中字符集的使用，如utf8与utf8mb4的区别。此外，还探讨了MySQL中字符集和排序规则的层级设定，包括服务器、数据库、表和列级别。最后，针对MySQL出现乱码的问题提供了相应的解决思路。

摘要由CSDN通过智能技术生成

首先回答题目，可以直接在MySQL黑框里面设置输入SET NAMES GBK;

1. 字符集

1.1 字符集简介

将一个字符映射成一个二进制数据的过程叫做编码，将一个二进制数据映射到一个字符的过程叫做解码。
人们抽象出一个字符集的概念来描述某个字符范围的编码规则
不同字符集有不同的字符范围，也就是说不同字符集能表示的不一样多

1.2 常见字符集

ASCII 字符集
共收录128个字符，包括空格、标点符号、数字、大小写字母和一些不可见字符。由于总共才128个字符，所以可以使用1个字节来进行编码，我们看一些字符的编码方式：
‘L’ -> 01001100（十六进制：0x4C，十进制：76）
‘M’ -> 01001101（十六进制：0x4D，十进制：77）
ISO 8859-1 字符集
共收录256个字符，是在 ASCII 字符集的基础上又扩充了128个西欧常用字符(包括德法两国的字母)，也可以使用1个字节来进行编码。这个字符集也有一个别名 latin1 。
GB2312 字符集
收录了汉字以及拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母。其中收录汉字6763个，其他文字符号682个。同时这种字符集又兼容 ASCII 字符集，所以在编码方式上显得有些奇怪：
- 如果该字符在 ASCII 字符集中，则采用1字节编码。
- 否则采用2字节编码。
这种表示一个字符需要的字节数可能不同的编码方式称为变长编码方式。比方说字符串 ‘爱u’ ，其中 ‘爱’ 需要用2个字节进行编码，编码后的十六进制表示为 0xCED2 ， ‘u’ 需要用1个字节进行编码，编码后的十六进制表示为 0x75 ，所以拼合起来就是 0xCED275 。

我们怎么区分某个字节代表一个单独的字符还是代表某个字符的一部分呢？别忘了ASCII字符集只收录128个字符，使用0～127就可以表示全部字符，所以如果某个字节是在0～127之内的，就意味着一个字节代表一个单独的字符，否则就是两个字节代表一个单独的字符。
GBK 字符集
GBK 字符集只是在收录字符范围上对 GB2312 字符集作了扩充，编码方式上兼容 GB2312
utf8 字符集
收录地球上能想到的所有字符，而且还在不断扩充。这种字符集兼容 ASCII 字符集，采用变长编码方式，编码一个字符需要使用1～4个字节，比方说这样：

‘L’ -> 01001100（十六进制：0x4C）
‘啊’ -> 111001011001010110001010（十六进制：0xE5958A）

说明：汉字在utf8中占3个字节，而在gbk中占2个字节

1.3 字符集比较

通过二进制编码来进行比较，比如’a’是小于’b’的
忽略大小写进行比较，如’a’和’A’是相等的，通常情况下，可以将大小写不同的字符转化为大写或者小写，再进行二进制比较

2. MySQL中支持的字符集和排序规则

2.1 MySQL中的utf8和utf8mb4

常用的一些字符使用1~3个字节就可以表示

utf8mb3 ：阉割过的 utf8 字符集，只使用1～3个字节表示字符。
utf8mb4 ：正宗的 utf8 字符集，使用1～4个字节表示字符。

在 MySQL 中 utf8 是 utf8mb3 的别名，所以之后在 MySQL 中提到 utf8 就意味着使用1~3个字节来表示一个字符.如果大家有使用4字节编码一个字符的情况，比如存储一些emoji表情啥的，那请使用 utf8mb4 。

2.2 MySQL中支持哪些字符集

输入：SHOW (CHARACTER SET|CHARSET) [LIKE 匹配的模式];
在这里插入图片描述
其中的 Default collation 列表示这种字符集中一种默认的比较规则。最后一列 Maxlen ，它代表该种字符集表示一个字符最多需要几个字节。重要的几种字符集的Maxlen如下，

2.3 比较规则的查看

输入：SHOW COLLATION [LIKE 匹配的模式];
例子：
在这里插入图片描述

Collation字段中，前缀都是以utf8，表示utf8的比较规则。
Collation字段中间的，如general表示一种通用的比较规则， utf8_polish_ci 表示以波兰语的规则比较。
名称后缀意味着该比较规则是否区分语言中的重音、大小写。
Default字段表示默认比较规则，从图上看出，utf8的默认比较规则是 utf8_general_ci

后缀	英文释义	描述
_ai	accent insensitive	不区分重音
_as	accent sensitive	区分重音
_ci	case insensitive	不区分大小写
_cs	case sensitive	区分大小写
_bin	binary	以二进制方式比较