在python中使用正则表达式实现中英文符号互换

最新推荐文章于 2023-03-22 19:20:39 发布

数据探索者

最新推荐文章于 2023-03-22 19:20:39 发布

阅读量3.4k

点赞数 1

分类专栏： python 文章标签： re sub 符号

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shujuxiaobai/article/details/91042872

版权

本文介绍了如何在Python中利用正则表达式和unicode编码规律，高效地实现中英文符号的互换。通过ord()和chr()函数结合re.sub，可以优雅地完成这一任务，避免了逐个判断和替换的繁琐过程。文中给出了具体代码示例，展示了替换前后的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在进行中文信息处理时，经常会发现有人错误地使用了英文半角的标点符号，给下一步处理造成一些麻烦。如果逐个地判断（使用循环方法）后进行替换，是一件非常费时费力的事情；当出现新的情况时，进行程序的更新也比较麻烦。利用unicode编码的规律和正则表达式中的替换（re.sub）功能，可以较为优雅地达到这个目的。

标点符号在unicode中的编码规律

每个符号都有一个唯一的unicode编码，可以通过内置函数ord()进行查询。如：

>>> ord('?')
63

半角符号符号和全角符号的编码有一个规律：英文符号的unicode编码+65248＝中文符号的unicode编码。
从编码转到具体的符号，可以使用函数chr()。如：

>>> chr(63)
'?'
>>> chr(63+65248)
'？'

空格除外，具体可查看网址：https://blog.csdn.net/zinnc/article/details/68524551

正则表达式的sub函数

re.sub共有5个参数：
第一个参数是pattern，即要匹配的模式；
第二个参数是repl，即拟替换成的对象，可以是字符串，也可以是函数；
第三个参数是string，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。