解决谷歌翻译复制的PDF的换行乱七八糟问题

最新推荐文章于 2024-09-30 11:07:50 发布

一只特立独行的喵喵喵

最新推荐文章于 2024-09-30 11:07:50 发布

阅读量1.6w

点赞数 5

分类专栏：爬虫懒癌晚期 python 文章标签：爬虫

本文链接：https://blog.csdn.net/YLPGG/article/details/79743623

版权

问题叙述：基于作为一名英语不怎么地的小硕还要看论文的强大需求驱动，需要谷歌翻译：然后下面是什么鬼，对于一个有强迫症的病人，这种格式看着浑身难受，无法安心科研，又加之，懒癌晚期，没有办法一行一行修改，因此要改善这样的情况：

好好的一句话被拆成四分五裂，好好的单词也被拆分，语义也因为乱七八糟的分段而无法理解，看上去很难受啊

于是，我准备解决这个问题，用最小力气去解决，大概核心6行代码就可以了，但是需要先保证你有FIrefox浏览器，安装了selenium等等爬虫需要的一些库，因为这个其实是基于爬虫的

from selenium import webdriver
from time import sleep
import requests
import time, re
from selenium import webdriver
from bs4 import BeautifulSoup as bs
import traceback
import selenium.webdriver.support.ui as ui
import sys
rootPath = r"./pdf_download/"
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0'}
print("please input your text: \n