这样的事情有可能吗?是的,尽管不推荐。在我看来,最好的办法是打开并阅读现有的文件,将其移到可编辑的格式,删除任何你不希望出现的文本,然后将其转换回原处。在
但是,您可以使用以下方法提取数据并将其从内存中删除:import PyPDF2
# creating a pdf file object
pdfFileObj = open('example.pdf', 'rb')
# creating a pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# printing number of pages in pdf file
print(pdfReader.numPages)
# creating a page object
pageObj = pdfReader.getPage(0)
# extracting text from page
print(pageObj.extractText())
# closing the pdf file object
pdfFileObj.close()
该程序将逐行:
pdfFileObj = open('example.pdf', 'rb')
打开example.pdf,并将file对象另存为pdfFileObj。在
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
创建一个PdfFileReader的对象,并将PDF file对象整个传递给一个PDF阅读器对象。在
print(pdfReader.numPages)
给出页数。在
pageObj = pdfReader.getPage(0)
创建PageObject类的对象。PDF reader对象具有函数getPage(),该函数以页码(起始形式索引0)为参数并返回page对象。在
print(pageObj.extractText())
从PDF页面中提取文本。在
pdfFileObj.close()
关闭PDF文件对象。在
替换文本只需为“”,因为您希望删除某段文本的所有实例/事例。在