python 匹配文本全角转半角字符

最新推荐文章于 2021-09-01 19:36:38 发布

小狼躲藏

最新推荐文章于 2021-09-01 19:36:38 发布

阅读量3.4k

点赞数

分类专栏： python 文章标签： python

python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在对文本进行处理的时候经常会遇见要对括号和标点进行匹配

常见的英文(半角)符号如( ) 直接用正则匹配即可

但是遇见全角字符(中文括号、标点)，直接用正则匹配会存在问题：

因为编码通常为为utf8，若直接匹配，中文括号的3字节编码会和一些中文的字节编码重复，产生意想不到的结果

若用decode转为unicode编码，则可避免产生错误结果，但也无法直接用正则匹配到

经过试验，发现一个看上去最佳的解决方法:

将字符串decode之后调用一个将全角符号转为半角符号的方法，然后处理返回的字符串

def strQ2B(ustring):
    """全角转半角"""
    rstring = ""
    for uchar in ustring:
        inside_code=ord(uchar)
        if inside_code == 12288:                              #全角空格直接转换
            inside_code = 32
        elif (inside_code >= 65281 and inside_code <= 65374): #全角字符（除空格）根据关系转化
            inside_code -= 65248
        rstring += unichr(inside_code)
    return rstring

def p(s):
    s1 = strQ2B(s.decode())
    p = re.compile('[()]',re.S)
    s1 = p.sub('',s1)
    return s1

这种方法本质上就是将正则的pattern字符和目标的编码对应, 所以将正则的字符串也用unicode表示就好可以:如下

#!/usr/bin/env python
#-*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf8')
import re

if __name__ == '__main__':
    s = '123(45)a啊速度（伤害）有限公司'
    ss = re.sub(u'[()（）]', '', s.decode())
    print ss

总的来说两种方法都还是有必要存在的。

第二种方法简单直接如果能快速方便列出所有形式的待匹配符号，就果断选用第二个

反之，若待匹配的各种符号太多太繁琐，就统一转为半角再处理更好

小狼躲藏

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 匹配文本全角转半角字符

在对文本进行处理的时候经常会遇见要对括号和标点进行匹配常见的英文(半角)符号如( ) 直接用正则匹配即可但是遇见全角字符(中文括号、标点)，直接用正则匹配会存在问题：因为编码通常为为utf8，若直接匹配，中文括号的3字节编码会和一些中文的字节编码重复，产生意想不到的结果若用decode转为unicode编码，则可避免产生错误结果，但也无法直接用正则匹配到经过试验，发现一个看上去
复制链接

扫一扫

专栏目录