python拆分中英文混合字符串

最新推荐文章于 2025-03-31 18:26:32 发布

lllwxy

最新推荐文章于 2025-03-31 18:26:32 发布

阅读量1.3w

点赞数 4

分类专栏：数据清洗

本文链接：https://blog.csdn.net/lllwxy/article/details/53786359

版权

数据清洗专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种使用Python正则表达式(re模块)进行中文字符匹配的方法，并通过一个具体示例展示了如何利用正则表达式的split方法来切割包含中文的字符串。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#coding=utf-8
 
import re
 
s = 'hi新手oh'.decode('utf-8') #举个栗子是字符串s，为了匹配下文的unicode形式，所以需要解码
p = re.compile(ur'[\u4e00-\u9fa5]') #这里是精髓，[\u4e00-\u9fa5]是匹配所有中文的正则，因为是unicode形式，所以也要转为ur
 
print p.split(s) #使用re库的split切割