新的项目启动后,创建数据库使用的一般需要创建默认字符集(CHARACTER)和排序规则(COLLATE)。
以下是我创建表使用的字符集和排序规则。
CREATE DATABASE `springcloud` DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci ;
字符集
排序规则
utf8
…
utf8_general_ci
utf8_unicode_ci
utf8mb4
…
utf8mb4_general_ci
utf8mb4_unicode_ci
utf8 vs utf8mb4(字符集)
utf8 和utf8mb4 是以unicode字符集使用UTF-8编码输出的不同的字符集。
utf8就是utf8mb3的别称,是unicode字符集使用UTF-8编码用3个字节(bytes)标识一个字符(character)的方式输出的字符集;MySQL官网已经明确说了,utf8mb3 is deprecated 会将之后的版本中移除掉。并且建议使用utf8mb4替换。
utf8mb4是unicode字符集使用UTF-8编码用4个字节(bytes)标识一个字符(character)的方式输出的字符集;在保存内容中有表情符号emoji时,使用utf8会有缺失情况(emoji表情 4 btyes),而utf8mb4天然支持。拓展性、兼容性更好。
Note
The utf8mb3 character set is deprecated and will be removed in a future MySQL release. Please use utf8mb4 instead. Although utf8 is currently an alias for utf8mb3, at some point utf8 will become a reference to utf8mb4. To avoid ambiguity about the meaning of utf8, consider specifying utf8mb4 explicitly for character set references instead of utf8.
utf8mb4_general_ci vs utf8mb4_unicode_ci(排序规则)
utf8mb4_general_ci在识别上不是那么精准,所以在查询检索效率上更高。
utf8mb4_unicode_ci会更规范,在识别上非常精准,所以对应的查询检索效率上会低一点。
详情可参考官网和外链。
MySQL官网8.0 charset-unicode-sets
stackoverflow general_ci unicode_ci 性能对比