Python简单实现消除“PDF格式”论文中的换行符

其实,准确的说是消除TXT文档中的换行符。

 起因是下载的PDF论文粘贴在谷歌翻译中进行翻译出现很多莫名的换行,导致翻译内容不连贯,手动去除换行符太麻烦,故写了个小程序简单实现去除换行符。

方法原理比较简单。本程序只能按 段落 复制到TXT文档中进行处理,处理后的文件以“原文件+_new.txt”文件的形式输出。

把新生成的文本中的内容在贴到谷歌翻译中,稍微省事一点吧。

注:用百度翻译的话,就不用这么麻烦了,直接上传PDF即可。谷歌翻译不支持大于1MB的文件上传。

# -*- coding:utf-8 -*-


def remove_empty_line(file_name):
    print "start"
    # source_content = ''
    with open(file_name, 'r') as source_file:
        file_content = source_file.read()
        source_content = file_content.replace("\n", " ")  # .replace("-", '')
        source_file.close()
    # 去除空格后的内容,存入名为:"原文件名+'_new.txt'"的文件中
    with open(str(file_name.split(".")[0])+'_new.txt', 'w+') as new_file:
        new_file.write(source_content)
        new_file.close()
    print "over"


if __name__ == "__main__":
    remove_empty_line("aaa.txt")

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值