最近做需求需要把一段带有拼音的段落分割成汉字,拼音,标点符号。正则匹配的表达式修正了很多次,才完美的匹配出所有的内容。
完整的表达式:
r'[\u4e00-\u9fa5]|[Aa-zZāáǎàōóǒòēéěèīíǐìūúǔùüǖǘǚǜńňǹḿmɡ]*|[a-zA-Z0-9_]|[\W]'
汉字表达式:[\u4e00-\u9fa5]
拼音表达式:[Aa-zZāáǎàōóǒòēéěèīíǐìūúǔùüǖǘǚǜńňǹḿmɡ]*
字符表达式:[a-zA-Z0-9_]
包含中英文标点符号和其他特殊符号的表达式:[\W]