-
utf8编码:111001101000100010010001 (3个字节,十六进制表示是:0xE68891)
-
gb2312编码:1100111011010010 (2个字节,十六进制表示是:0xCED2)
如何查看字符集
查看字符集的命令十分简单:show (character set|charset) [like 匹配模式]
,括号内表示可以任选其中一个,比如选择character set
,当然比较难打,所以charset
更常用一些,记住这一个即可。
下面是具体的案例,可以看到目前mysql支持41种字符集:
show charset;
armscii8 ARMSCII-8 Armenian armscii8_general_ci 1
ascii US ASCII ascii_general_ci 1
big5 Big5 Traditional Chinese big5_chinese_ci 2
binary Binary pseudo charset binary 1
cp1250 Windows Central European cp1250_general_ci 1
cp1251 Windows Cyrillic cp1251_general_ci 1
cp1256 Windows Arabic cp1256_general_ci 1
cp1257 Windows Baltic cp1257_general_ci 1
cp850 DOS West European cp850_general_ci 1
cp852 DOS Central European cp852_general_ci 1
cp866 DOS Russian cp866_general_ci 1
show charset like ‘big%’;
big5 Big5 Traditional Chinese big5_chinese_ci 2
下面是需要记忆的几个字符集,也是最常用的字符集:
比较规则查看
之前介绍过字符集是有比较规则,mysql吧比较多规则设置为一个命令,查看mysql的比较规则如下:
show collation [like 匹配模式]
下面是比较规则的相关案例,可以看到光是utf开头的比较规则就有150多种:
mysql> show collation like ‘utf_%’;
比较规则的规律
-
比较规则和前缀进行匹配,比如utf_8的字符集都是按照utf8开头的。
-
前缀为字符集的匹配,那么后缀就是和语言有关了,比如utf8_polish_ci按照波兰语匹配,utf8_spanish_ci 是以西班牙语的规则比较,通用匹配规则为: utf8_general_ci。
-
名称后缀意味着该比较规则是否区分语言中的重音、大小写啥,比如ci代表的是不区分大小写。
|后缀|英文释义|描述| |:–😐:–😐:–😐 | _ai | accent insensitive |不区分重音| | _as | accent sensitive |区分重 音| | _ci | case insensitive |不区分大小写| | _cs | case sensitive |区分大小写| | _bin | binary |以二进制 方式比较|
每种字符集对应若干种比较规则,每种字符集都有一种默认的比较规则,我们可以看到上面的截图中有一个Default
的列就是当前字符集的默认比较规则。比方说 utf8 字符集默认的比较规则就是utf8_general_ci
字符集和比较规则级别介绍
下面到了本文的重点,MySQL 有4个级别的字符集和比较规则,分别是:
-
服务器级别:启动的时候根据配置或者数据库默认规则生成字符集和比较规则
-
数据库级别:数据库的系统变量为只读,修改数据库字符集和比较规则需要保证数据兼容。
-
表级别:表级别比较规则默认跟随数据库,修改字符集同样需要保证数据兼容,否则会报错。
-
列级别:不建议关注,只需了解即可,通常没有人会去单独改某一列的字符集
当然这些特点只是简单列举,下面会按照实际的案例进行一一阐述。
服务器级别规则
MySQL 提供了两个系统变量来表示服务器级别的字符集和比较规则:
-
Character_set_server:服务器级别的字符集
-
Collation_server:服务器级别的比较规则
下面是具体的案例:
mysql> show variables like ‘character_set_server’;
character_set_server utf8mb4
mysql> SHOW VARIABLES LIKE ‘collation_server’;
collation_server utf8mb4_0900_ai_ci
可以看到这里是标记为utf8mb4,但是如果这里显示是utf8,其实本质上是utf8mb3。最后可以看到上面服务器级别的字符集为utfmb4,而服务器级别的比较规则为:utf8mb4_0900_ai_ci
,不过有些人可能是输出:utf8_general_ci
设置字符集和比较规则:
如果想要设置服务器级别的字符集和比较规则,可以使用如下的方式,上一节关于mysql的系统配置中说过可以设置配置文件的内容如下,注意需要分配到[server]
的组下面:
[server]
character_set_server=gbk
collation_server=gbk_chinese_ci
数据库级别规则
我们在创建数据库的时候更多的时候使用create database 数据名
,但是使用这种语法创建的数据库使用为配置文件配置的字符集和比较规则,下面我们来了解一下如何创建自定义的比较规则和字符集的数据库。
自定义创建数据库字符集和比较规则:
下面是创建自定义数据库级别的字符集和比较规则的语法,当然如果不小心建错了字符集,可以使用alter database
来进行修改
create database 数据库名称
[[DEFAULT] CHARACTER SET 字符集名称]
[[DEFAULT] COLLATE 比较规则名称];
alter database 数据库名
[[DEFAULT] CHARACTER SET 字符集名称]
[[DEFAULT] COLLATE 比较规则名称];
下面为实际的操作案例以及具体的操作效果:
CREATE DATABASE charset_demo_db
CHARACTER SET gb2312
COLLATE gb2312_chinese_ci;
关于上面的参数[DEFAULT]
可以进行忽略,如果我们想要查看当前的数据库比较规则,可以使用下面两个 系统变量进行查看:(前提是使用 USE 语句选择当前默认数据库,如果没有默认数据库,则变量与相应的服务器级别的系统变量具有相同的值)
-
character_set_database:当前数据库字符集
-
Collation_database:当前数据库比较规则
下面为具体的案例:
如果没有use database,则会显示下面的内容(个人测试)
character_set_database utf8mb3
use charset_demo_db;
show variables like ‘character_set_database’;
character_set_database gb2312
show variables LIKE ‘collation_database’;
collation_database gb2312_chinese_ci
可以看到charset_demo_db
使用的还是创建的时候默认的字符集和比较规则,这里有一个需要注意的点是数据库级别的系统变量是只读的,也就意味着character_set_database
和collation_database
是只读的,不能修改这两个参数修改字符集和比较规则。但是我们可以使用alter database
命令修改数据库的级别。
最后,如果不指定字符集和比较规则,这样的话将使用服务器级别的字符集和比较规则作为数据库的字符集和比较规则。
表级别规则
下面我们来看下表级别的规则,表级别顾名思义就是在创建表的时候我们可以追定字符集和字符的比较规则,具体的命令记忆也就是把数据库换成表而已,这里有读者可能注意到的是不能使用charset
替代,只有character set
这一个写法:
CREATE TABLE 表名 (列的信息)
[[DEFAULT] CHARACTER SET 字符集名称] [COLLATE 比较规则名称]]
ALTER TABLE 表名
[[DEFAULT] CHARACTER SET 字符集名称] [COLLATE 比较规则名称]
下面我们来看下具体的案例:
create table test(
id int auto_increment primary key
) character set utf8mb4
COLLATE utf8mb4_0900_ai_ci
之前说过,如果你在创建表的时候没有制定字符集和比较规则,默认会使用所在数据库的字符集和比较规则,这个规则比较好理解,因为你在哪个地盘构建表用哪个地盘的配置也合情合理。
下面是关于数据表的字符集查看规则的语法:
查看数据表的字符集:show table status from '数据库名称' like '数据表名称';
除此之外,还有一种方法:SELECT TABLE_SCHEMA, TABLE_NAME,TABLE_COLLATION FROM INFORMATION_SCHEMA.TABLES where TABLE_NAME = '数据表名称'
,通过这样的sql也可以推断出具体的字符集。
show table status from bank like ‘admin’;
admin InnoDB 10 Dynamic 0 0 16384 0 0 0 1 2021-11-21 09:23:52 utf8_general_ci
use bank;
SELECT TABLE_SCHEMA, TABLE_NAME,TABLE_COLLATION FROM INFORMATION_SCHEMA.TABLES where TABLE_NAME = ‘status’;
TABLE_SCHEMA TABLE_NAME TABLE_COLLATION
bank status utf8_general_ci
这里将数据库bank里面的admin表拿出来看了一下,可以看到具体的比较规则是utf8_general_ci,所以可以肯定字符集是utf8。(注意不是utf8mb4)
列级别规则
列级别规则我相信也没有多少人会去关注,在同一个表中其实是可以存在多个字符集和比较规则的,如果我们想要在列中指定字符集,可以使用如下的语法:
CREATE TABLE 表名(
列名 字符串类型 [CHARACTER SET 字符集名称] [COLLATE 比较规则名称], 其他列…
);
如果想要修改某一个列的字符集或者比较规则,使用如下的语法:
ALTER TABLE 表名 MODIFY 列名 字符串类型 [CHARACTER SET 字符集名称] [COLLATE 比较规则名称];
下面是一个案例:
ALTER TABLE t MODIFY col VARCHAR(10) CHARACTER SET gbk COLLATE gbk_chinese_ci;
最后提醒一遍,尽量保持一张表使用同一个字符集,不然很有可能出现各种莫名其妙的问题,比如你如果不小心把汉字存放在不支持的字符集,就会出现乱码的情况。另外,如果列没有指定字符集,毫无疑问会使用表所在的字符集和比较规则。
补充:在转换列的字符集时需要注意,如果转换前列中存储的数据不能用转换后的字符集进行表示会发生错误,就好比上面说的汉字存储在不兼容的字符集的时候就会出现报错。
最后是查看列的字符集:
show full columns from '表名称' like '列名';
字符集和比较规则的联动
我们在使用navicat创建字符集的时候,会有一种切换的效果,就是我们选择某一个字符集之后就会出现对应的比较规则,但是如果我们选择比较规则再选字符集,这么做是行不通滴,为了验证我们来看下面对应的截图内容:
选择比较规则再选字符集:
选择字符集再选择比较规则:
所以,关于字符集和比较规则的变更规则如下(适用于所有级别的字符集和比较规则):
-
只修改字符集,比较规则会变更为变更之后的字符集默认的比较规则
-
只修改比较规则,字符集变为修改比较规则之后的字符集
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)
最后
如果觉得本文对你有帮助的话,不妨给我点个赞,关注一下吧!
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!
经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!**
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)
最后
如果觉得本文对你有帮助的话,不妨给我点个赞,关注一下吧!
[外链图片转存中…(img-GqKFq95j-1713513226593)]
[外链图片转存中…(img-pAIVjQDy-1713513226593)]
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!