python 搜索pdf文件中的文字_使用python查找pdf文档中搜索字符串位于哪一页

最新推荐文章于 2024-06-19 11:21:58 发布

weixin_39585675

最新推荐文章于 2024-06-19 11:21:58 发布

阅读量2.5k

点赞数

文章标签： python 搜索pdf文件中的文字

我终于发现pyPDF可以帮上忙。我把它寄出去，以防它能帮助别人。

(1)定位字符串的函数def fnPDF_FindText(xFile, xString):

# xfile : the PDF file in which to look

# xString : the string to look for

import pyPdf, re

PageFound = -1

pdfDoc = pyPdf.PdfFileReader(file(xFile, "rb"))

for i in range(0, pdfDoc.getNumPages()):

content = ""

content += pdfDoc.getPage(i).extractText() + "\n"

content1 = content.encode('ascii', 'ignore').lower()

ResSearch = re.search(xString, content1)

if ResSearch is not None:

PageFound = i

break

return PageFound

(2)提取感兴趣页面的函数def fnPDF_ExtractPages(xFileNameOriginal, xFileNameOutput, xPageStart, xPageEnd):

from pyPdf import PdfFileReader, PdfFileWriter

output = PdfFileWriter()

pdfOne = PdfFileReader(file(xFileNameOriginal, "rb"))

for i in range(xPageStart, xPageEnd):

output.addPage(pdfOne.getPage(i))

outputStream = file(xFileNameOutput, "wb")

output.write(outputStream)

outputStream.close()

我希望这对其他人有帮助

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注