python的正则匹配unicode

最新推荐文章于 2024-07-27 12:20:46 发布

liweisnake

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量1.2w

点赞数 1

分类专栏： python 文章标签： python 正则表达式 unicode

本文链接：https://blog.csdn.net/liweisnake/article/details/17325493

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近用到python的正则表达式解析不同的语言，发现有不少细节很困扰人，写下来留念。

python正则解析unicode的注意点。一是pattern前需要加u来escape unicode，而是源字符串也得是unicode。因此，一个解析unicode的语句应该这样写

re.sub(ur'.*[\u4E00-\u9FA5]+.*', '', unicode('中文'))

对于英文，中文，日文，韩文，常见的unicode字符范围如下

epre = re.compile(r"[\s\w]+")
chre = re.compile(ur".*[\u4E00-\u9FA5]+.*")
jpre = re.compile(ur".*[\u3040-\u30FF\u31F0-\u31FF]+.*")
hgre = re.compile(ur".*[\u1100-\u11FF\u3130-\u318F\uAC00-\uD7AF]+.*")

对于更细致的unicode范围，请参考这里 http://www.iteye.com/topic/558050

对于正则主要的几个函数match，search，split，findall，sub

对于复杂的正则式，可以用repr()来查看原始字符串

另外，如果需要替换所有标点，python的写法也有些不一样

re.sub(r'[{}]+'.format(string.punctuation),'', name)

java里可以这样写

name.replaceAll("[\\pP‘’“”]", "");

对于不确定的编码，使用chardet来猜测编码方式也不失为一种选择

def autoTransformEncoding(x):
    if(x == None or x == ''):
        return ''
    defaultEncoding = sys.getdefaultencoding()
    infoencode = chardet.detect(x).get('encoding', defaultEncoding)
    if(infoencode == None):
        infoencode = defaultEncoding
    return x.decode(infoencode,'ignore').encode('utf-8')

liweisnake

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python的正则匹配unicode

最近用到python的正则表达式解析不同的语言，发现有不少细节，写下来留念。 python正则解析unicode的注意点。一是pattern前需要加u来escape unicode，而是源字符串也得是unicode。因此，一个解析unicode的语句应该这样写re.sub(ur'.*[\u4E00-\u9FA5]+.*', '', unicode('中文')) 对于英文，中文，日文
复制链接

扫一扫

专栏目录