！！只保留文本中的中英文和符号.，其余都删除

最新推荐文章于 2022-12-27 14:52:46 发布

爱做梦真是太好了

最新推荐文章于 2022-12-27 14:52:46 发布

阅读量1.5w

点赞数 8

分类专栏： Python编程语言文章标签：正则表达式 python

本文链接：https://blog.csdn.net/github_37412255/article/details/78499071

版权

Python编程语言专栏收录该内容

22 篇文章 0 订阅

订阅专栏

只保留文本中的中英文和符号.，其余都删除

想要只保留文本中的中英文和符号.，其余都删除吗？下面这个程序可以帮您。它简洁、高效，用python实现，只要把正则表达式换成你想要的就可以了。（python3实现）

代码实现：

import re

my_file_path = 'data/百度百科语料.txt'
save_file_path = 'data/百度百科语料_去除符号.txt'
# 打开文件
my_file = open(my_file_path, 'r', encoding='utf-8')
# 只保留中英文、数字和.的正则表达式
cop = re.compile("[^\u4e00-\u9fa5^.^a-z^A-Z^0-9]")

for line in my_file.readlines():
    string = cop.sub("", line)
    save_file = open(save_file_path, 'a', encoding='utf-8')
    save_file.write(string)
    save_file.flush()
    save_file.close()

# ascii(my_file.read(3)[0]) 获取unicode编码
# 关闭文件
my_file.close()