其实,准确的说是消除TXT文档中的换行符。
起因是下载的PDF论文粘贴在谷歌翻译中进行翻译出现很多莫名的换行,导致翻译内容不连贯,手动去除换行符太麻烦,故写了个小程序简单实现去除换行符。
方法原理比较简单。本程序只能按 段落 复制到TXT文档中进行处理,处理后的文件以“原文件+_new.txt”文件的形式输出。
把新生成的文本中的内容在贴到谷歌翻译中,稍微省事一点吧。
注:用百度翻译的话,就不用这么麻烦了,直接上传PDF即可。谷歌翻译不支持大于1MB的文件上传。
# -*- coding:utf-8 -*-
def remove_empty_line(file_name):
print "start"
# source_content = ''
with open(file_name, 'r') as source_file:
file_content = source_file.read()
source_content = file_content.replace("\n", " ") # .replace("-", '')
source_file.close()
# 去除空格后的内容,存入名为:"原文件名+'_new.txt'"的文件中
with open(str(file_name.split(".")[0])+'_new.txt', 'w+') as new_file:
new_file.write(source_content)
new_file.close()
print "over"
if __name__ == "__main__":
remove_empty_line("aaa.txt")