python处理word文档-Python处理PDF和Word文档常用的方法

Python处理PDF和Word文档的模块是PyPDF2,使用之前需要先导入。

打开一个PDF文档的操作顺序是:用open()函数打开文件并用一个变量来接收,然后把变量给传递给PdfFileReader对象,形成一个PdfFileReader对象,这样用PdfFileReader对象下面的各种方法、属性去操作PDF文档。

PdfFileReader对象常用方法:

(1)、PyPDF2.PdfFileReader()方法:代表一个PdfFileReader对象。

(2)、getPage() 方法:获取FDF文档页数;

(3)、extractText()方法:获取当前PDF文档当前页面的文本内容。

(4)、decrypt()方法:用来给加密的PDF文档接收密码(解密);

(5)、rotateClockwise()和 rotateCounterClockwise()方法:可以将文档旋转90/180/270度;

(6)、mergePage()方法:用来叠加PDF文档页面(类似加水印);

PdfFileReader对象常用属性:

(1)、pdfReader.numPages 属性:获取当前文档对象总页数。

(2)、 isEncrypted 属性:用于判断PDF文档是否是加密的,如果是加密的,返回True,否则返回False.

(3)、

例如:

>>> import PyPDF2

>>> pdfFileObj = open("meetingminutes.pdf", "rb")

>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

 >>> pdfReader.numPages

19

 >>> pageObj = pdfReader.getPage(0)

 >>> pageObj.extractText()

PdfFileWriter 对象

操作顺序:

1.打开一个或多个已有的 PDF(源 PDF) ,得到 PdfFileReader 对象。

2.创建一个新的 PdfFileWriter 对象。

3.将页面从 PdfFileReader 对象拷贝到 PdfFileWriter 对象中。

4.最后,利用 PdfFileWriter 对象写入输出的 PDF。

PdfFileWriter 对象常用方法:

addPage()方法:将源PDF文档页面添加到新的PDF文档里面(复制)。

write()方法:将PdfFileWriter 对象保存的信息写入到变量(文件)中。

encrypt() 方法:用来给文档加密,在文件写入前使用此方法,可以给文档进行加密。

例如:

import PyPDF2

minutesFile=open("meetingminutes.pdf","rb")

pdfReader=PyPDF2.PdfFileReader(minutesFile)

page=pdfReader.getPage(0)

print(page.rotateClockwise(90))

pdfWriter=PyPDF2.PdfFileWriter() ###创建一个PdfFileWriter()对象;

pdfWriter.addPage(page) ##把复制的源PDF的page页面添加到新的PdfFileWriter() 对象中;

pdfoutFile=open("rotatedPage.pdf","wb") ###打开一个名为“rotatedPage.pdf”的文档(没有则新建),然后用一个pdfoutFile变量来接收它。

pdfWriter.write(pdfoutFile) ####用PdfFileWriter()对象的write方法写入到变量中;

pdfoutFile.close()

minutesFile.close()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值