Intro
这几天在爬取数据的时候,使用Mysql插入到数据库中时
总是会遇到下面这个报错
一开始我不知道这是什么字符,后来打印出来看了一下,哦 原来是个emoji表情,那么这个emoji表情问什么插入不到数据库中呢?
Incorrect string value: ‘\xF0\x9F\x92\xAA”,…’ for column ‘raw_json’ at row 1
Reason
我们的数据库里面一般都是使用utf8编码,普通的字符串或者表情都是占位3个字节,所以utf8足够用了,但是移动端的表情符号占位是4个字节,普通的utf8就不够用了。
为了应对无线互联网的机遇和挑战、避免 emoji 表情符号带来的问题、涉及无线相关的 MySQL 数据库建议都提前采用utf8mb4 字符集,这必须要作为移动互联网行业的一个技术选型的要点。
给一个标准的解决方案:
mysql的版本必须为v5.5.3或更高
把数据库的编码改成utf8mb4 – UTF-8 Unicode
然后需要存储emoji表情的字段选择utf8mb4_general_ci
数据库连接也需要改为utf8mb4
Solution
以下为在ubuntu16.04下的修改方案:
sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf
打开这个文件…我也不知道为什么和网上的mysql路径不太一样
在[mysqld]下面插入这句话
character-set-server=utf8mb4
然后保存关闭再打开下面这个文件
sudo vim /etc/mysql/conf.d/mysql.cnf
随便在哪插入这句话
default-character-set=utf8mb4
最后重启Mysql服务
sudo service mysqld restart
Test
设置完成后,应该可以看到如下类似字符集设置结果。那么可以直接的存入数据库,无需做任何额外的事情了。
mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';
+--------------------------+--------------------+
| Variable_name | Value |
+--------------------------+--------------------+
| character_set_client | utf8mb4 |
| character_set_connection | utf8mb4 |
| character_set_database | utf8mb4 |
| character_set_filesystem | binary |
| character_set_results | utf8mb4 |
| character_set_server | utf8mb4 |
| character_set_system | utf8 |
| collation_connection | utf8mb4_unicode_ci |
| collation_database | utf8mb4_unicode_ci |
| collation_server | utf8mb4_unicode_ci |
+--------------------------+--------------------+
rows in set (0.00 sec)