utf-8编码字节
- 一个US-ASCIl字符只需1字节编码(Unicode范围由U+0000~U+007F)。
- 带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码(Unicode范围由U+0080~U+07FF)。
- 其他语言的字符(包括中日韩文字、东南亚文字、中东文字等)包含了大部分常用字,使用3字节编码。
- 其他极少使用的语言字符使用4字节编码。
参考资料来源:百度百科-UTF-8
utf8和utf8mb4区别
- utf8 编码最大字符长度为 3 字节
- utf8mb4 编码最大字符长度为 4 字节
utf8mb4的出现就是为了专门用来兼容四字节的unicode,utf8mb4是utf8的超集。
注:Emoji 表情4字节