环境
- 操作系统:ubuntu 16.04
- python版本: python2
功能
将pdf格式的全英论文解析并翻译为中文,结果保存在txt文件中。
分析
pdf全英论文是没法直接翻译的,需要将pdf格式的转换为其他格式,正巧python有个pdfminer包可以解析pdf文档,同时可以保存为txt格式的,我们只需在保存之前翻译就可以达到效果。
本项目分为两部分:解析pdf 和 翻译。
解析pdf
主要用到PDFMiner:
PDFMiner是一种从PDF文档中提取信息的工具。 与其他与PDF相关的工具不同,它完全侧重于获取和分析文本数据。 PDFMiner允许人们获取页面中文本的确切位置,以及其他信息,如字体或行。 它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。 它具有可扩展的PDF解析器,可以用于文本分析的其他目的。
安装pdfminer :http://jingyan.baidu.com/article/3aed632e0490e570108091aa.html。
翻译
翻译部分在项目五有具体的实现详解,传送门:http://blog.csdn.net/xunalove/article/details/74999761
实现代码
#!/usr/bin/python2
#-*- coding:utf-8 -*-
import urllib,hashlib
import random
import requests,sys
from pdfminer.converter import PDFPageAggregator