【python爬虫】批量识别pdf中的英文，自动翻译成中文下

阿黎逸阳

已于 2023-09-03 19:08:01 修改

阅读量2.5k

点赞数

分类专栏：学习python 爬虫文章标签： python 爬虫 pdf

于 2023-09-03 19:05:49 首次发布

本文链接：https://blog.csdn.net/qq_32532663/article/details/132653450

版权

学习python 同时被 2 个专栏收录

130 篇文章 106 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

爬虫

7 篇文章 1 订阅

订阅专栏

本文介绍如何使用Python结合百度翻译，批量识别并翻译PDF中的英文内容到中文，包括模拟登录、翻译函数的实现、内容输出到TXT文档的步骤。适合需要翻译大量英文PDF的场景。

摘要由CSDN通过智能技术生成

不管是上学还是上班，有时不可避免需要看英文文章，特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候，是一段一段复制，或者碰到不认识的单词就百度翻译一下，非常耗费时间。之前的文章提供了批量识别pdf中英文的方法，详见【python爬虫】批量识别pdf中的英文，自动翻译成中文上，本文实现自动pdf英文转中文文档。

文章目录

一、导入库

首先导入需要用到的库，如果有部分库还没安装，可以采用pip install的方法进行安装。具体导入库的代码如下：

import os 
import json
import time
import random
import pandas as pd
from captcha import * 
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.common.