背景
最近国家针对互联网平台的信息敏感性要求越来越严格,尤其是涉政相关的词语。这不最近就有网安的工作人员过来检测平台的用户昵称、UGC相关的评论和恢复内容。那么我们务必先做到自检,做到防患于未然。那么我们主要找出相关的中文进行检测。
方案
通过正则匹配
SELECT field FROM tbl WHERE NOT (field REGEXP "[u0391-uFFE5]");
字符长度
在UTF-8的编码下,1个汉字为3个字符。所以可以通过字符长度进行比较。
SELECT field FROM tbl WHERE length(field )=char_length(field);