Python实战:解决从PDF复制文本到翻译软件时的换行问题

Python实战:解决从PDF复制文本到翻译软件时的换行问题

在这里插入图片描述

🌈 个人主页:高斯小哥
🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化Python基础【高质量合集】PyTorch零基础入门教程 👈 希望得到您的订阅和支持~
💡 创作高质量博文,分享更多关于深度学习、PyTorch、Python领域的优质内容!(希望得到您的关注~)



图1 翻译结果举例

一、 引言 💭

  当你兴冲冲地从PDF文献中复制一大段英文,准备粘贴到翻译软件里一探究竟时,有没有遇到过如图1所示的尴尬情况:**原本应该紧密相连的文本,在翻译软件里却变成了支离破碎的句子,每个短句都被莫名地拆分开来?**😅


二、 问题分析 🔍

  PDF文件,这个看似普通的文件格式,其实内部充满了“陷阱”。它的文本并不像Word或TXT文件那样简单明了,而是以图形元素的形式嵌入,还夹杂着各种排版信息。这就导致从PDF中复制文本时,经常会带上一些“隐藏”的换行符或其他格式信息,让翻译软件“误解”了文本的真正意图。😖


三、 解决方案 🛠️

  不过,别怕!Python可以解决这个问题!下面是一个简单的Python脚本,它能读取一个txt文件(你可以将PDF中的文本复制到这个txt文件中),然后删除其中的所有换行符,使文本恢复其原本的连续性。这样,你再将处理后的文本粘贴到翻译软件中,就能得到完整、连贯的翻译结果啦!✨

with open('文献论文格式转换器.txt', 'r', encoding='utf-8') as f:
    temp = []
    for s_line in f:
        for s in s_line:
            temp.append(s)
        if temp[-2] == '-':
            del temp[-2]
            del temp[-1]
        else:
            del temp[-1]
            temp.append(' ')
    print('\n', ''.join(temp))

📖 操作步骤

  1. 创建txt文件:首先,你需要一个txt文件,将你从PDF中复制的文本粘贴到这个文件中。

图2 txt文件示例

  1. 运行Python脚本:然后,运行上面的Python脚本,它会读取你的txt文件并删除其中的换行符。
  2. 复制并粘贴:最后,将处理后的文本复制到你的翻译软件中,开始愉快的翻译之旅吧!🚀

图2 处理后的翻译效果


四、 总结 🎉

  有了这个Python小助手,你再也不用担心从PDF中复制文本到翻译软件时的换行问题啦!快来试试吧!🎊


五、 最后 🤝

  亲爱的读者,感谢您每一次停留和阅读,这是对我们最大的支持和鼓励!🙏在茫茫网海中,您的关注让我们深感荣幸。您的独到见解和建议,如明灯照亮我们前行的道路。🌟若在阅读中有所收获,一个赞或收藏,对我们意义重大。

  我们承诺,会不断自我挑战,为您呈现更精彩的内容。📚有任何疑问或建议,欢迎在评论区畅所欲言,我们时刻倾听。💬让我们携手在知识的海洋中航行,共同成长,共创辉煌!🌱🌳感谢您的厚爱与支持,期待与您共同书写精彩篇章!

  您的点赞👍、收藏🌟、评论💬和关注💖,是我们前行的最大动力!

  🎉 感谢阅读,祝你编程愉快! 🎉

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

高斯小哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值