1、PyPDF2:用来处理pdf文件的工具集
http://mstamy2.github.io/PyPDF2
- 提供了一批处理PDF文件的计算功能
- 支持获取信息、分隔/整合文件、加密解密等
- 完全Python语言实现,不需要额外依赖,功能稳定
from PyPDF2 import PdfFileReader,PdfFileMerger
merger=PdfFileMerger()
input1=open("document1.pdf","rb")
input2=open("document2.pdf","rb")
merger.append(fimeobj=input1,pages=(0,3))
merger.merge(position=2,fileobj=input2,pages=(0,1))
output=open("document-output.pdf","wd")
merger.write(output)
2、NLTK:自然语言文本处理第三方库
- 提供了一批简单易用的自然语言文本处理功能
- 支持语言文本分类、标记、语法句法、语义分析等
- 最优秀的Python自然语言处理库
form nltk.corpus import treebank
t=treebank.parsed_sents('wsj_0001.meg')[0]
t.draw()
3、Python-docx:创建或更新Microsoft Word文件的第三方库
http://python-docx.readthedocs.io/en/latest/index.html
- 提供创建或更新.doc,.docx等文件的计算功能
- 增加并配置段落、图片、表格、文字等,功能全面
from docx import Document
document = Document()
document.add_heading('Document Tile',0)
p=document.add_paragraph('A plain paragrapg having some ')
document.add_page_break()
document.save('demo.docx')