!!只保留文本中的中英文和符号.,其余都删除

只保留文本中的中英文和符号.,其余都删除

想要只保留文本中的中英文和符号.,其余都删除吗?下面这个程序可以帮您。它简洁、高效,用python实现,只要把正则表达式换成你想要的就可以了。(python3实现)



代码实现:

import re

my_file_path = 'data/百度百科语料.txt'
save_file_path = 'data/百度百科语料_去除符号.txt'
# 打开文件
my_file = open(my_file_path, 'r', encoding='utf-8')
# 只保留中英文、数字和.的正则表达式
cop = re.compile("[^\u4e00-\u9fa5^.^a-z^A-Z^0-9]")

for line in my_file.readlines():
    string = cop.sub("", line)
    save_file = open(save_file_path, 'a', encoding='utf-8')
    save_file.write(string)
    save_file.flush()
    save_file.close()

# ascii(my_file.read(3)[0]) 获取unicode编码
# 关闭文件
my_file.close()

代码说明:[^\u4e00-\u9fa5^.^a-z^A-Z^0-9] 为需要替换的字符;string = cop.sub(“”, line) 即把文本中匹配到的字符替换成空字符;my_file_path为要处理的文件,里面是文本;save_file_path为处理完成之后的文本文件。

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值