python不可以处理pdf文件_PyPDF2 write不能用于某些PDF文件（Python3.5.1）

最新推荐文章于 2024-07-27 19:11:59 发布

weixin_39631350

最新推荐文章于 2024-07-27 19:11:59 发布

阅读量1.3k

点赞数

文章标签： python不可以处理pdf文件

首先，我使用的是python3.5.1（32位版本）

我编写了以下程序，使用PyPDF2和reportlab在pdf文件的所有页面上添加页码：#import modules

from os import listdir

from PyPDF2 import PdfFileWriter, PdfFileReader

import io

from reportlab.pdfgen import canvas

from reportlab.lib.pagesizes import A4

#initial values of variable declarations

PDFlist=[]

X_value=460

Y_value=820

#Make a list of al files in de directory

filelist = listdir()

#Make a list of all pdf files in the directory

for i in range(0,len(filelist)):

filename=filelist[i]

for j in range(0,len(filename)):

char=filename[j]

if char=='.':

extension=filename[j+1:j+4]

if extension=='pdf':

PDFlist.append(filename)

j=j+1

i=i+1

# Give the horizontal position for the page number (Enter = use default value of 480)

User = input('Give horizontal position page number (ENTER = default 460): ')

if User != "":

X_value=int(User)

# Give the vertical position for the page number (Enter = use default value of 820)

User = input('Give horizontal position page number (ENTER = default 820): ')

if User != "":

Y_value=int(User)

for i in range(0,len(PDFlist)):

filename=PDFlist[i]

# read the PDF

existing_pdf = PdfFileReader(open(filename, "rb"))

print("File: "+filename)

# count the number of pages

number_of_pages = existing_pdf.getNumPages()

print("Number of pages detected:"+str(number_of_pages))

output = PdfFileWriter()

for k in range(0,number_of_pages):

packet = io.BytesIO()

# create a new PDF with Reportlab

can = canvas.Canvas(packet, pagesize=A4)

Pagenumber=" Page "+str(k+1)+"/"+str(number_of_pages)

# we first make a white rectangle to cover any existing text in the pdf

can.setFillColorRGB(1,1,1)

can.setStrokeColorRGB(1,1,1)

can.rect(X_value-10,Y_value-5,120,20,fill=1)

# set the font and size

can.setFont("Helvetica",14)

# choose color of page numbers (red)

can.setFillColorRGB(1,0,0)

can.drawString(X_value, Y_value, Pagenumber)

can.save()

print(Pagenumber)

#move to the beginning of the StringIO buffer

packet.seek(0)

new_pdf = PdfFileReader(packet)

# add the "watermark" (which is the new pdf) on the existing page

page = existing_pdf.getPage(k)

page.mergePage(new_pdf.getPage(0))

output.addPage(page)

k=k+1

# finally, write "output" to a real file

ResultPDF="Output/"+filename

outputStream = open(ResultPDF, "wb")

output.write(outputStream)

outputStream.close()

i=i+1

这个程序可以很好地处理大量的PDF文件（尽管有时会生成类似“PdfReadWarning: Superfluous whitespace found in object header b'16' b'0' [pdf.py:1666]”之类的警告，但最终的输出文件对我来说没问题）。

然而，程序只是不能处理一些PDF文件，尽管这些文件在我的adobeacrobat中是完全可读和可编辑的。我的印象是，错误大多出现在扫描的PDF文件上，但不是所有的PDF文件上（我也对扫描的PDF文件编号，这些文件没有生成任何错误）。

我收到以下错误消息（前8行是我自己的打印命令的结果）：

^{pr2}$

显然，页面与reportlab创建的PDF合并在一起（见第6/6页的行），但最终PyPDF2无法生成任何输出PDF文件（我得到了一个0字节的不可读输出文件）。

有人能解释一下如何解决这个问题吗？我在网上搜索了一下，但没有找到答案。在

weixin_39631350

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。