Python 判断汉字

最新推荐文章于 2024-06-17 11:20:14 发布

益达915

最新推荐文章于 2024-06-17 11:20:14 发布

阅读量5.2k

点赞数 3

分类专栏： Python 文章标签： python

Python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

搬运地址: http://luopuya.github.io/2014/03/29/Python 判断汉字字符/

为了清洗数据, 项目中需要去除所有不包含中文的字符串

使用 unicode 范围 \u4e00 - \u9fff 来判别汉字

unicode 分配给汉字（中日韩越统一表意文字）的范围为 4E00-9FFF
（目前 unicode 6.3 的标准已定义到 9FCC ）

在 Python 3 中，判断字符是否汉字的方法如下：

def ishan(text):
    # for python 3.x
    # sample: ishan('一') == True, ishan('我&&你') == False
    return all('\u4e00' <= char <= '\u9fff' for char in text)

Python 2写法

def ishan(text):
    # for python 2.x, 3.3+
    # sample: ishan(u'一') == True, ishan(u'我&&你') == False
    return all(u'\u4e00' <= char <= u'\u9fff' for char in text)

补充说明

Python 3.3+ 重新支持 Python 2 中用 u 表示 unicode 的方式
\u4e00-\u9fff 不包含中文符号，如有需要可参考维基
网上常见的 \u4e00-\u9fa5 写太死了，虽说目前而言后面的都是极其罕见的字

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

益达915

关注关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Python 判断汉字

搬运地址: http://luopuya.github.io/2014/03/29/Python 判断汉字字符/为了清洗数据, 项目中需要去除所有不包含中文的字符串使用 unicode 范围 \u4e00 - \u9fff 来判别汉字unicode 分配给汉字（中日韩越统一表意文字）的范围为 4E00-9FFF（目前 unicode 6.3 的标准已定义到 9FCC ）在 Pytho...
复制链接

扫一扫