UTF8mb3和UTF8mb4的区别

UTF8mb3和UTF8mb4的区别

UTF-8是一种用于编码Unicode字符的可变长度字符编码标准。
MySQL中的“utf8”编码只支持最大3字节每字符,就是"utf8mb3"。真正的大家正在使用的UTF-8编码是应该能支持4字节每个字符。他们在2010年增加了一个变通的方法:一个新的字符集“utf8mb4”。
"utf8mb4"和"utf8mb3"则是UTF-8的两个变种。它们的主要区别在于能够表示的字符范围。

1. UTF-8 (Unicode)

最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。

因此,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。现代操作系统和大多数编程语言都直接支持Unicode。

2. UTF8mb3和UTF8mb4

MySQL数据库的 “utf8”并不是真正概念里的 UTF-8,原因上面是一点,还有一点是MySQL中的“utf8”编码只支持最大3字节每字符。真正的大家正在使用的UTF-8编码是应该能支持4字节每个字符。emoji需要4个字节,因此UTF8MB3无法存储emoji。

但其实MYSQL的开发者,并没有修饰这个bug,而是推出了新的字符集,就是UTF-8MB4字符编码。

3. UTF8MB3编码的优缺点

  1. 优点
    UTF8MB3相对于UTF8MB4而言,存储一个字符所需的空间少一半,所以在存储大量数据时,UTF8MB3的存储更加节省空间。

  2. 缺点
    UTF8MB3只能表示BMP平面内的字符,若出现超过此范围的字符,有可能无法正常存储或解析。
    同时,UTF8MB3中的字符序列不能被直接用于JSON格式类型的数据,这点需特别注意。

4. UTF8MB3的使用

在MySQL中,UTF8MB3可以通过修改数据库、表或者字段的字符集Collation实现。下面是一个字段使用UTF8MB3编码的代码示例:

CREATE TABLE `test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(50) COLLATE utf8mb3_unicode_ci DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb3 COLLATE=utf8mb3_unicode_ci;

5. 使用UTF8MB3存储emoji

在创建数据库的时候,就需要选定utf-8mb4字符集,而不是utf-8。
在这里插入图片描述

在设置字段字符集的时候,也需要设置为utf-8mb4字符集。
在这里插入图片描述
charmap.exe是Windows的字符映射表,进入之后,选择字体Segoe UI Emoji
在这里插入图片描述

需要修改一下my.ini配置文件,
在[mysqld]下面添加:character_set_server=utf8mb4,保存,重启mysql服务。
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值