简单明白彻底解决 MySQL 中文编码问题

1. 问题重现

mysql> create database school;
mysql> use school;
mysql> create table student(name varchar(10));
mysql> insert into student values("Clarke");
mysql> select * from student;
+--------+
| name   |
+--------+
| Clarke |
+--------+
mysql> insert into student values("唐三");

# 插入中文失败
ERROR 1366 (HY000): Incorrect string value: '\xE5\x94\x90\xE4\xB8\x89' for column 'name' at row 1

2. 分析和解决

2.1 数据库编码设置

2.1.1 查看 MySQL 程序编码设置
mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | latin1                    |
| character_set_connection | latin1                    |
| character_set_database   | latin1                     |
| character_set_filesystem | binary                     |
| character_set_results    | latin1                    |
| character_set_server     | latin1                    |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+

可以看到,设置里有很多的编码设置是 latin1,这个编码是无法正确显示中文的,如果你的设置也是这样,这就是导致中文编码问题的可能原因。

关于这些设置的含义:

optiondesc
character_set_client客户端使用的字符编码,如果客户端连接时没有设置,或者服务端已配置为忽略客户端的设置
character_set_connection客户端设置连接数据库时的字符编码,如果客户端没有指明,则连接数据库使用该设置的编码
character_set_database当前选中数据库的默认字符编码,如果没有选中数据库(use ),则和 character_set_server 的值一致
character_set_filesystem文件系统的编码格式,把操作系统上的文件名转化成此字符集,即把 character_set_client转换character_set_filesystem, 默认binary是不做任何转换的
character_set_results数据库给客户端返回时使用的编码格式,如果客户端连接时没有指明,则使用该编码
character_set_server数据库服务器默认编码格式,创建数据库时默认使用
character_set_system数据库系统使用的编码格式,这个值一直是utf8,不需要设置,它是为存储系统元数据的编码格式
character_sets_dir这个变量是字符集安装的目录

更多说明:MySQL doc - 5.1.7 Server System Variables

2.1.2 修改编码设置

编码设置中我们需要关注的是下面 5 个字符编码设置:

# 服务端相关
character_set_server
character_set_database #当前选中数据库的编码,这个设置不需要手动修改​

# 客户端相关
character_set_client
character_set_connection
character_set_results

修改编码设置的方式有三种。

方式1: session 范围修改

mysql> set character_set_server=utf8mb4

建议使用 utf8mb4 编码而不是 utf8,因为 MySQL 的 utf8 编码有点小问题,可以自行百度 MySQL 中 utf8 和 utf8mb4 的区别

这种修改方式是 session 范围的,也就是当前的 MySQL 连接结束后,设置就失效了。

其他几个编码设置也一样修改。

方式2: global 范围修改

mysql> set global character_set_server=utf8mb4

global 范围下的修改,重新连接依然有效,直到 MySQL 服务端重启。

方式3: 修改配置文件

想要编码设置在 MySQL 服务端重启后依然生效,可以修改配置文件。

不同平台的配置文件位置不一样,可以通过下面命令查看:

➜  ~ mysql --verbose --help | grep my.cnf

/etc/my.cnf /etc/mysql/my.cnf /usr/local/mysql/etc/my.cnf ~/.my.cnf

更多说明: MySQL 官方文档:4.2.2.2 Using Option Files

除了~/.my.cnf文件是用户级别的外,其他几个位置都是系统级别的,如果该位置没有my.cnf文件,就新建一个文本文件,命名为 my.cnf

windows 系统下,这个文件叫 my.ini

my.cnf文件中添加以下内容:

[mysqld]
character_set_server=utf8mb4
collation_server=utf8mb4_unicode_ci 
[client]
default_character-set=utf8mb4

更多信息参考: A.11 MySQL 8.0 FAQ: MySQL Chinese, Japanese, and Korean Character Sets

配置项说明:

  • character-set-server 设置影响 character_set_server 的值,character_set_database 的值在未选中当前数据库的情况下下,默认跟随 character_set_server 的值。

  • default-character-set 影响 character_set_client, character_set_connection, character_set_results 三者的值。

在 MySQL 连接终端中执行 SET NAMES <charset>也是影响的 character_set_client, character_set_connection, character_set_results 三者的值

  • collation_server 影响 orderby 的排序结果,建议设置 character-set-server 的同时也要设置

关于 character_set_server 和 collation_server: MySQL doc - sysvar_character_set_server

修改配置文件后重启 MySQL,再查看下编码设置,

mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | utf8mb4                    |
| character_set_connection | utf8mb4                    |
| character_set_database   | utf8mb4                    |
| character_set_filesystem | binary                     |
| character_set_results    | utf8mb4                    |
| character_set_server     | utf8mb4                    |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+

可以看到已经生效了,5 个相关设置已经修改为 utf8mb4。

三种修改方式,优先选择修改配置文件,其次的选择或者想要灵活设置的话,可以在终端会话中设置。

2.2 已创建的数据库的编码

如果上面的配置已经修改完成,可能仍然有中文编码问题,因为对于已经创建完成的数据库和表,它的编码在创建时已经确定了,前面的配置项(character_set_server)已经不能影响了,需要逐个修改相应的数据库,表,列。

2.2.1 具体数据库的编码

查看完整的数据库创建语句:

mysql> show create database school;
+----------+-------------------------------------------------------------------+
| Database | Create Database                                                   |
+----------+-------------------------------------------------------------------+
| school   | CREATE DATABASE `school` /*!40100 DEFAULT CHARACTER SET latin1 */ |
+----------+-------------------------------------------------------------------+

可以看到数据库 school 的默认编码仍然是 latin1,改起:

mysql> alter database school character set 'utf8mb4';

mysql> show create database school;
+----------+--------------------------------------------------------------------+
| Database | Create Database                                                    |
+----------+--------------------------------------------------------------------+
| school   | CREATE DATABASE `school` /*!40100 DEFAULT CHARACTER SET utf8mb4 */ |
+----------+--------------------------------------------------------------------+
2.2.2 表的编码

在前一节,数据库 school 的默认编码已经修改为 utf8mb4,接下来看数据表的默认编码:

mysql> show create table student;
+---------+---------------------------------------------------------------------------------------------------+
| Table   | Create Table                                                                                      |
+---------+---------------------------------------------------------------------------------------------------+
| student | CREATE TABLE `student` (
  `name` varchar(10) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+---------+---------------------------------------------------------------------------------------------------+

看到数据表 student 的默认编码仍然是 latin1,再改起:

mysql> alter table student character set 'utf8mb4';
Query OK, 0 rows affected (0.03 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show create table student;
+---------+-------------------------------------------------------------------------------------------------------------------------+
| Table   | Create Table                                                                                                            |
+---------+-------------------------------------------------------------------------------------------------------------------------+
| student | CREATE TABLE `student` (
  `name` varchar(10) CHARACTER SET latin1 DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 |
+---------+-------------------------------------------------------------------------------------------------------------------------+
2.2.3 列的编码

在上一节可以看到,数据表 student 的默认编码已经修改为 utf8mb4,但是列 name 的编码还是 latin1,改起!

mysql> alter table `student` change `name` `name` text character set 'utf8mb4';
Query OK, 1 row affected (0.04 sec)
Records: 1  Duplicates: 0  Warnings: 0

mysql> show create table student;
+---------+--------------------------------------------------------------------------------+
| Table   | Create Table                                                                   |
+---------+--------------------------------------------------------------------------------+
| student | CREATE TABLE `student` (
  `name` text
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 |
+---------+--------------------------------------------------------------------------------+

到这里,对于已经存在的数据库,修改完成,再插入中文试试:

mysql> insert into student value("昊天");
Query OK, 1 row affected (0.00 sec)

mysql> select * from student;
+--------+
| name   |
+--------+
| Clarke |
| 昊天   |
+--------+
2 rows in set (0.00 sec)

成功!到此,中文编码的问题就解决了。

2.3 防御性编码

为了防止意外的情况发生,我们可以采取更健壮的防御性编码的方式,哪怕数据库服务端的编码设置不正确,我们仍然可以插入中文数据。

具体就是在创建数据表的时候指定默认编码:

mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | latin1                     |
| character_set_connection | latin1                     |
| character_set_database   | latin1                     |
| character_set_filesystem | binary                     |
| character_set_results    | latin1                     |
| character_set_server     | latin1                     |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)

# 指定存储引擎,编码,排序规则
mysql> create table course(name varchar(32)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
Query OK, 0 rows affected (0.03 sec)

mysql> insert into course value('高数');
Query OK, 1 row affected (0.01 sec)

mysql> select * from course;
+--------+
| name   |
+--------+
| 高数   |
+--------+
1 row in set (0.00 sec)

或者直接在创建数据库的时候就指定编码:

mysql> create database school DEFAULT CHARACTER SET utf8mb4;

3. 总结

解决 MySQL 中文编码问题的步骤:

  1. 查看数据库编码设置

  2. 修改编码设置,在终端中修改设置项,或者修改配置文件 my.cnf 以永久生效

  3. 对于之前创建的数据库,修改数据库,数据表,数据列的默认编码

最佳实践:防御性编码,在数据库创建语句中指定默认编码。

参考:

MySQL 5.7 官方文档

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值