微信公众号开发--微信昵称中含有emoji字符串处理

2 篇文章 0 订阅
1 篇文章 0 订阅

最近在做一个基于微信公众号开发的微店商城项目,本人是java后台。需要存储从公众号进入我们商城的用户的微信昵称,由于Android和ios系统中存在emoji这种特殊字符,导致我从微信接口中获取到的微信昵称中如果含有emoji字符,插入数据库就会报错(mysql数据库)。

报错信息:Incorrect string value: '\xF0\x9F\xA4\x97 3...' for column 'nick_name' at row 1

百度了解知道:emoji表情符采用Unicode 6标准,采用4个byte字节存储一个emoji表情符,而我们的mysql数据库采用UTF-8编码格式时,采用3个byte字节存储一个字符,这样插入数据库就会报错。好在mysql5.5.3之后新增了一个utf8mb4字符集,专门用来兼容4字节的Unicode字符。

解决办法:
一、如果非得存储emoji表情。mysql5.5.3以下的升级数据库,本来就是5.5以上的直接修改字符集和排序规则,注意一定要同时把排序规则也一起修改了。
1.修改数据的字符集和排序规则,如下图:
2.修改表中该字段的字符集和排序规则
3.重启数据库,再次插入就不会报错。emoji在数据库中还是无法正常显示。

、直接将emoji表情过滤,我还是觉得这种办法方便,毕竟重装数据库对业务有很大的影响,特别是该数据库中有别的线上项目的数据时根本不允许重装。
/**
* @Title:emoji特殊处理
* @author:yanbing
* @date:2017-12-05 10:15
 */
public class EmojiStringUtils {
	/**
	* @Title:判断是否存在特殊字符串
	* @param
	* @author:yanbing
	* @date:2017-12-05 10:14
	 */
    public static boolean hasEmoji(String content){
        Pattern pattern = Pattern.compile("[\ud83c\udc00-\ud83c\udfff]|[\ud83d\udc00-\ud83d\udfff]|[\u2600-\u27ff]");
        Matcher matcher = pattern.matcher(content);
        if(matcher .find()){
            return true;    
        }
            return false;
    }
    /**
    * @Title:替换字符串中的emoji字符
    * @param
    * @author:yanbing
    * @date:2017-12-05 10:17
     */
    public static String replaceEmoji(String str){
    	if(!hasEmoji(str)){
    		return str;
    	}else{
    		str=str.replaceAll("[\ud83c\udc00-\ud83c\udfff]|[\ud83d\udc00-\ud83d\udfff]|[\u2600-\u27ff]", " ");
    		return str;
    	}
    	
    }
}


附注:emoji表情符的编码表:http://punchdrunker.github.io/iOSEmoji/table_html/flower.html2017

2017/12/6 14:17后记:

本人在升级数据库后(mysql5.6),按照上述方法一操作,发现还是无法插入带有emoji标签的字符,检查我的数据库字符集发现:

执行:SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';

出现:

character_set_client utf8
character_set_connection utf8
character_set_database utf8mb4
character_set_filesystem binary
character_set_results utf8
character_set_server latin1
character_set_system utf8
collation_connection utf8_general_ci
collation_database utf8mb4_general_ci
collation_server latin1_swedish_ci
发现character_set_server=latin1,百度知道latin1是ISO-8859-1的别名,也就是说安装数据库是选择的字符集是ISO-8859-1,导致我们新建数据库时 服务器字符集 (character_set_server)默认为iso-8859-1,解决方法:

Linux版本的mysql安装后一般会有一个my.cnf文件,在etc目录下,cd /etc进入my.cnf目录,vim my.cnf进入编辑模式,在[mysqld]下面增加两行配置:character_set_server=utf8mb4  collation_server=utf8mb4_general_ci

重启数据库:service mysqld restart;

再次查询所有字符集都是utf8编码的,插入数据也成功
character_set_client utf8
character_set_connection utf8
character_set_database utf8mb4
character_set_filesystem binary
character_set_results utf8
character_set_server utf8mb4
character_set_system utf8
collation_connection utf8_general_ci
collation_database utf8mb4_general_ci
collation_server utf8mb4_general_ci



  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值