解决谷歌翻译复制的PDF的换行乱七八糟问题

问题叙述:基于作为一名英语不怎么地的小硕还要看论文的强大需求驱动,需要谷歌翻译:然后下面是什么鬼,对于一个有强迫症的病人,这种格式看着浑身难受,无法安心科研,又加之,懒癌晚期,没有办法一行一行修改,因此要改善这样的情况:


好好的一句话被拆成四分五裂,好好的单词也被拆分,语义也因为乱七八糟的分段而无法理解,看上去很难受啊

于是,我准备解决这个问题,用最小力气去解决,大概核心6行代码就可以了,但是需要先保证你有FIrefox浏览器,安装了selenium等等爬虫需要的一些库,因为这个其实是基于爬虫的

from selenium import webdriver
from time import sleep
import requests
import time, re
from selenium import webdriver
from bs4 import BeautifulSoup as bs
import traceback
import selenium.webdriver.support.ui as ui
import sys
rootPath = r"./pdf_download/"
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0'}
print("please input your text: \n
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值