Python对unicode文件的读写和使用正则表达式

最新推荐文章于 2022-03-27 15:54:14 发布

LuckilyYu

最新推荐文章于 2022-03-27 15:54:14 发布

阅读量1.1w

点赞数

分类专栏： linux 文章标签： python 正则表达式 file perl codec each

本文链接：https://blog.csdn.net/LuckilyYu/article/details/6188162

版权

linux 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

之前用UltraEdit的正则表达式（RE）处理Unicode的文件非常强大，但是仅限于替换（就是把匹配的项目替换成某一个指定的内容）。而在指定RE时比较新的版本已经能够指定是UltraEdit模式，Unix模式，还是Perl模式。因为Python支持的RE就是Perl模式，所以就想着用Python处理就非常灵活，经过一番折腾后就有了这篇简单的分享。

目的：找出所有每句话中直到出现文字前的所有控制符（用<>表示），该文本是unicode编码。

No.0 ---------------------------------- <E102 0000><E1D1><E100 0001 0003 0004 0005>我们<E100 0001> <E102 0000><E1D1><E100 0001>我们<E100 0001> <E102 0000><E1D1><E100 0001>今天<E100 0001> <E102 0000><E1D1><E100 0001>晚上<E100 0001> <E102 0000><E1D1><E100 0001>有坤宁宫<E100 0001> <E102 0000><E1D1><E100 0001>反对反对<E100 0001> <E102 0000><E1D1><E100 0001> ----------------------------------

解决办法： 活用python的RE和codec模块

import re import codecs #打开文本，告诉解码器是unicode编码 file_object = codecs.open('text.txt', 'r', 'utf-16') try: all_the_text = file_object.readlines( ) finally: file_object.close( ) #我们的正则表达式，也需要是unicode pattern=u"(^(<E/w+(/s/w+)*>)+)" try: #创建一个unicode编码的文件 unicode_file = codecs.open('unicode_out.txt', 'w', 'utf-16') for each_text in all_the_text: ret = re.findall(pattern, each_text) if len(ret) > 0: unicode_file.write(ret[0][0]) unicode_file.write(u"/r/n") finally: unicode_file.close()

pattern=u"(^(<E/w+(/s/w+)*>)+)"，就是我写的正则表达式，拆分一下就是（/w，匹配所有的字母和数字，/s，匹配空格等特殊字符）

<E/w+(/s/w+)*>，匹配 <E102 0000>， <E1D1>，<E100 0001 0003 0004 0005>等情况

^(<E/w+(/s/w+)*>)+，匹配所有从字符串最开始到遇到非控制码之前的所有的控制码

这里要注意下，如果要让python获得所有的匹配结果，必须再加一层大括号。

结果：