Python库之文本处理

1、PyPDF2:用来处理pdf文件的工具集

http://mstamy2.github.io/PyPDF2

  • 提供了一批处理PDF文件的计算功能
  • 支持获取信息、分隔/整合文件、加密解密等
  • 完全Python语言实现,不需要额外依赖,功能稳定
from PyPDF2 import PdfFileReader,PdfFileMerger
merger=PdfFileMerger()
input1=open("document1.pdf","rb")
input2=open("document2.pdf","rb")
merger.append(fimeobj=input1,pages=(0,3))
merger.merge(position=2,fileobj=input2,pages=(0,1))
output=open("document-output.pdf","wd")
merger.write(output)

2、NLTK:自然语言文本处理第三方库

http://www.nltk.org/

  • 提供了一批简单易用的自然语言文本处理功能
  • 支持语言文本分类、标记、语法句法、语义分析等
  • 最优秀的Python自然语言处理库
form nltk.corpus import treebank
t=treebank.parsed_sents('wsj_0001.meg')[0]
t.draw()

在这里插入图片描述

3、Python-docx:创建或更新Microsoft Word文件的第三方库

http://python-docx.readthedocs.io/en/latest/index.html

  • 提供创建或更新.doc,.docx等文件的计算功能
  • 增加并配置段落、图片、表格、文字等,功能全面
from docx import Document
document = Document()
document.add_heading('Document Tile',0)
p=document.add_paragraph('A plain paragrapg having some ')
document.add_page_break()
document.save('demo.docx')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值