我只想用我写的这个小脚本来解析PDF文件中的数据。在
但是,我似乎遇到了python的问题,更具体地说,PyPDF2模块无法从pdf文件中读取文本。打印出来的数据都是模糊的,基本上不可读。然而,当我打开我试图阅读的pdf文件时,我可以简单地click drag and ctrl+c来复制内容,然后当我将其粘贴到纯txt文档中时,它可以完美地工作。当我手动复制和粘贴这个过程时,数据是可读的。在
所以我要做的是模拟这个步骤,但是要自动执行,而不是让我在执行上述步骤时遍历pdf文件中的所有页面。在
或者,如果有人建议我还能做些什么来达到这个目的,我将非常感激。我尝试过将pdf文件转换成docx和纯文本文件,但是文件的内容完全重新安排了格式import PyPDF2
pdfFileObj = open('sjsuclassdata.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pageObj = pdfReader.getPage(4)
print(pageObj.extractText())
编辑
实际上,我现在要做的就是简单地编写一个脚本来执行以下操作。在
1.)阅读pdf文件
2.)复制整页内容(ctrl+a)
3.)将整页内容粘贴到纯文本文件中(ctrl+v)
4.)阅读pdf文件直到文件结束