mysql 中文匹配

2017-04-19

mysql 中文匹配

     最近一个情感分析项目,由于采集到的评论数据中有不含中文的字符串,导致情感分析模型的准确度不高,需要过滤掉不包含中文的字符串。以下是BI报表上显示的分析结果。

查看后台数据库中的数据,如下图,绿色部分不包含中文字符的字段,是我们需要过滤掉。

在参考资料的2篇博客中,找到了对应的解决办法,用mysql里的HEX函数可以把字段转为16进制,然后正则匹配 对应中文的code码。
我们的字段存储的是utf8,所以查询了utf8汉字编码对照表 (如果你的是gbk系的就查对应的编码对照就可以了)
如下图,可以总结出utf8汉字编码16进制的正则匹配格式是: e[4-9][0-9a-f]{4}

以下是正则匹配包含中文的示例,

以下是正则匹配非中文字符的示例,

 

参考资料

[1] mysql_正则匹配中文

[2] utf8汉字编码16进制对照

 

转载于:https://www.cnblogs.com/cenliang/p/6732490.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值