实践项目六：PDF全英论文解析和翻译

最新推荐文章于 2024-08-10 14:00:00 发布

「已注销」

最新推荐文章于 2024-08-10 14:00:00 发布

阅读量1.6k

点赞数 2

分类专栏：【Python】 python学习小项目文章标签： python

本文链接：https://blog.csdn.net/xunalove/article/details/77746897

版权

使用Python的PDFMiner库将PDF格式的全英文论文解析为TXT，并通过预处理去除' '，实现翻译成中文。项目分为解析PDF和翻译两个阶段，最终将翻译结果保存至TXT文件。

摘要由CSDN通过智能技术生成

环境

操作系统：ubuntu 16.04
python版本： python2

功能

将pdf格式的全英论文解析并翻译为中文，结果保存在txt文件中。

分析

pdf全英论文是没法直接翻译的，需要将pdf格式的转换为其他格式，正巧python有个pdfminer包可以解析pdf文档，同时可以保存为txt格式的，我们只需在保存之前翻译就可以达到效果。
本项目分为两部分：解析pdf 和翻译。

解析pdf

主要用到PDFMiner:
PDFMiner是一种从PDF文档中提取信息的工具。与其他与PDF相关的工具不同，它完全侧重于获取和分析文本数据。 PDFMiner允许人们获取页面中文本的确切位置，以及其他信息，如字体或行。它包括一个PDF转换器，可以将PDF文件转换为其他文本格式（如HTML）。它具有可扩展的PDF解析器，可以用于文本分析的其他目的。
安装pdfminer :http://jingyan.baidu.com/article/3aed632e0490e570108091aa.html。

翻译

翻译部分在项目五有具体的实现详解，传送门：http://blog.csdn.net/xunalove/article/details/74999761

实现代码

#!/usr/bin/python2
#-*- coding:utf-8 -*-
import urllib,hashlib
import random
import requests,sys
from pdfminer.converter import PDFPageAggregator

最低0.47元/天解锁文章

「已注销」

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录