MySQL中基于 UTF-8 字符集编码,VARCHAR 字符长度与字节长度的理解
UTF-8 字符集
在 mysql 4.1 及之前早期版本中,如果是字符集为UTF-8 , varchar 以字节为单位存储,一个汉字占 3 个字节,则 varchar(100) 类型字段只能存放约 33 个汉字。
而在往后的版本中,如 5.x ,一个汉字占多少长度与编码有关 。
在 UTF-8 字符集下,varchar 以字符为单位存储。所以 varchar(100) 类型字段可存放约 100 个汉字。
但是这并不是说 varchar(100) 就等于 100 个字节,例如一个中文占三个字节,而实际字节长度可以用 length 函数检验。
举个栗子:
某表姓名字段 name varchar(60) ,name 的值为 “万科”,用 length(name) 输出实际长度为 6。这说明一个中文汉字(一个字符)占 3 个字节长度。
utf8mb4 字符集
另外 mysql 的 UTF-8 编码并不是真正的 UTF-8 编码,mysql 的 UTF-8 最多只支持 3 个字节,而 emoji 表情、一些特殊的中文字符则需要 4 个字节才能存储,因此在 MySQL 5.6+ 版本之后支持 4Bytes 字节(utf8mb4)的存储, utf8mb4 是对原先 UTF-8 只能存储 3 个字节大小的字符的一种补充,是一种真正的UTF-8编码。
参考
- https://blog.csdn.net/Gerry_DC/article/details/108484009
- https://blog.csdn.net/weixin_35600369/article/details/113164223