让 MySQL 支持 emoji 存储

让 MySQL 支持 emoji 存储

在导入 twitter 内容的时候,发现有部分内容会出错。开始以为是编码问题,但文本全部为 utf8 也会出现这个问题,后来定位到 emoji 字符。

其原因是 utf8 是不定长的,根据左侧位来决定占用了几个字节。emoji 表情是 4 个字节,而 MySQL 的 utf8 编码最多支持 3 个字节,所以插入会出错。

为了解决这个问题,MySQL 开始支持 utf8mb4

utf8mb4 可支持 4 个字节 utf 编码,从而支持更大的字符集,并且兼容 utf8。简单来说,utf8mb4 是 utf8 的超集。

要让 MySQL 开启 utf8mb4 支持,需要一些额外的设置。

1. 检查 MySQL Server 版本

  • utf8mb4 支持需要 MySQL Server v5.5.3+

2. 设置表的 CHARSET

  • 创建表的时候指定 CHARSET 为 utf8mb4

    CREATE TABLE IF NOT EXISTS table_name (
    ...
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE utf8mb4_general_ci;
  • 或者修改已存在的表 CHARSET 为 utf8mb4

    ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

3. 修改 MySQL 配置文件

  • 修改 my.conf 的内容

    [client]
    default-character-set = utf8mb4
    
    [mysql]
    default-character-set = utf8mb4
    
    [mysqld]
    character-set-client-handshake = FALSE
    character-set-server = utf8mb4
    collation-server = utf8mb4_unicode_ci

4. 检查是否生效

  • 正常情况下的结果应该如下所示:

    mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR   Variable_name LIKE 'collation%';
    +--------------------------+--------------------+
    | Variable_name            | Value              |
    +--------------------------+--------------------+
    | character_set_client     | utf8mb4            |
    | character_set_connection | utf8mb4            |
    | character_set_database   | utf8mb4            |
    | character_set_filesystem | binary             |
    | character_set_results    | utf8mb4            |
    | character_set_server     | utf8mb4            |
    | character_set_system     | utf8               |
    | collation_connection     | utf8mb4_unicode_ci |
    | collation_database       | utf8mb4_unicode_ci |
    | collation_server         | utf8mb4_unicode_ci |
    +--------------------------+--------------------+

5. 指定 MySQL 连接时的 charset

  • 以 mysql-python 为例:

    MySQLdb.connect(
            host=config.DB_HOST,
            port=config.DB_PORT,
            user=config.DB_USR,
            passwd=config.DB_PSW,
            db=config.DB_NAME,
            use_unicode=True,
            charset="utf8mb4")

[1] http://en.wikipedia.org/wiki/Mapping_of_Unicode_characters

[2] https://mathiasbynens.be/notes/mysql-utf8mb4#utf8-to-utf8mb4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值