先说一下写这篇文章的目的。最近在写论文,因此需要查阅大量的文献,在引用他人的文献时,需要复制文本,复制下来的文字经常会出现大量的乱码,如下图。
手动处理格式,比如删除空格和回车字符十分令人头疼,成为了一个体力活,因此我想能不能利用 Python 写一个小程序自动处理文章格式,把文字中的空格和回车字符全部删去,最后的结果变成下图。
下面开始动手做。
思路是,先打开 txt 文件,按行读取其中的文本,保存为字符串,对字符串删除所有的空格与回车字符,然后将所有行的字符串拼接成为一个大字符串,最后将该大字符串写入到目标 txt 文件中。下面为代码。
data = '' # 保存最后处理完的文本
with open('target.txt', 'r') as f: # 按行处理 txt 文本
for line in f:
line = line.replace(' ', '') # 删除所有空格
line = line.replace('\n', '') # 删除所有回车
data = data + line # 字符串拼接
fw = open('result.txt', 'w')
fw.write(data) # 将最终结果保存到目标文件