实践项目六:PDF全英论文解析和翻译

使用Python的PDFMiner库将PDF格式的全英文论文解析为TXT,并通过预处理去除' ',实现翻译成中文。项目分为解析PDF和翻译两个阶段,最终将翻译结果保存至TXT文件。
摘要由CSDN通过智能技术生成

环境

  • 操作系统:ubuntu 16.04
  • python版本: python2

功能

将pdf格式的全英论文解析并翻译为中文,结果保存在txt文件中。

分析

pdf全英论文是没法直接翻译的,需要将pdf格式的转换为其他格式,正巧python有个pdfminer包可以解析pdf文档,同时可以保存为txt格式的,我们只需在保存之前翻译就可以达到效果。
本项目分为两部分:解析pdf 和 翻译。

解析pdf

主要用到PDFMiner:
PDFMiner是一种从PDF文档中提取信息的工具。 与其他与PDF相关的工具不同,它完全侧重于获取和分析文本数据。 PDFMiner允许人们获取页面中文本的确切位置,以及其他信息,如字体或行。 它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。 它具有可扩展的PDF解析器,可以用于文本分析的其他目的。
安装pdfminer :http://jingyan.baidu.com/article/3aed632e0490e570108091aa.html

翻译

翻译部分在项目五有具体的实现详解,传送门:http://blog.csdn.net/xunalove/article/details/74999761

实现代码

#!/usr/bin/python2
#-*- coding:utf-8 -*-
import urllib,hashlib
import random
import requests,sys
from pdfminer.converter import PDFPageAggregator
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值