pdf处理页面时发生错误。读取本文档时出现问题(109)


这是在一个pdf中遇到的小问题,当读取pdf中特殊页时会提示109错误,这个页面是空白的,但是鼠标是能够选中内容的。当对文档做了标记需要修改时,也会出现这个错误。在网络上查了好多种答案,有人建议重新安装Adobe reader,发现没有用。


这个:

PDF文档无法保存。读取本文档时出现问题(109)
1. 无法另存为
2 工具→保护→隐藏信息→删除隐藏信息(acrobat 10及以上版本);

3.acrobat 9 及以下版本中:文档-->检查文档,扫描结束后可以根据需要留下标签,其余都删除掉。
如果对PDF不太懂又不想留下任何书签的话,可以直接点击[整理文档],删除所有隐藏信息即可。

尝试之后,出错误的页无法删除信息,还是不行。

有人提议使用文档合并功能,这个需要跳过有问题的页才能用,否则合并只会合并最后一个未发生错误的块中,例如1-100页的文档,50也出问题,那么需要合并1-49和51-100,否则合并无法正常完成。(文件-->合并-->合并文件到单个PDF)

这样也会跳过错误页,还是无法读取错误页。


最后的成功的解决方法:使用福昕(foxit) pdf 阅读器能够正常存储,同时也能正常显示前边说过的空白页。版本自己尝试,我用的是6.1.2.1224

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Jupyter本身并不能将PDF文献转换为文本文档,但是可以使用Python的第三方库来实现这一功能。下面是一个使用PyPDF2库将PDF文献转换为文本文档的示例代码: ```python import PyPDF2 # 打开PDF文件 with open('example.pdf', 'rb') as pdf_file: # 创建一个PDF对象 pdf_reader = PyPDF2.PdfFileReader(pdf_file) # 获取PDF文件中的所有页面 num_pages = pdf_reader.getNumPages() # 创建一个文本文件 with open('example.txt', 'w') as text_file: # 遍历所有页面,将每个页面的文本内容写入文本文件 for page in range(num_pages): page_obj = pdf_reader.getPage(page) text_file.write(page_obj.extractText()) ``` 在上面的代码中,我们使用了PyPDF2库中的PdfFileReader类来读取PDF文件,getNumPages()方法获取PDF文件中的页面数,getPage()方法获取每个页面的对象,extractText()方法从页面对象中提取文本内容。最后将提取的文本内容写入一个新的文本文件中。 ### 回答2: 要将格式为PDF的文献转换为文本文档,可以按照以下步骤进行操作: 1. 安装所需的软件:首先,需要安装Jupyter Notebook和适当的Python库来处理PDF文件。常用的Python库包括PyPDF2、pdfminer.six等。可以使用pip命令在终端或命令提示符中安装这些库。 2. 导入所需的库:在Jupyter Notebook中的第一个单元格中导入所需的库。例如,使用以下代码导入PyPDF2库:import PyPDF2。 3. 打开PDF文件:使用PyPDF2库的open方法打开要转换的PDF文件。例如,可以使用以下代码打开名为"文献.pdf"的PDF文件: file = open('文献.pdf', 'rb')。 4. 创建PDF读取器对象:使用PyPDF2库的PdfFileReader方法创建一个PDF读取器对象。例如,可以使用以下代码创建一个名为"pdfReader"的PDF读取器对象: pdfReader = PyPDF2.PdfFileReader(file)。 5. 获取PDF中的页面数:使用PyPDF2库的numPages属性获取PDF中的页面数。例如,可以使用以下代码获取页面数: numPages = pdfReader.numPages。 6. 逐页提取文本:使用PyPDF2库的getPage和extract_text方法逐页提取文本。例如,可以使用以下代码提取第一页中的文本: pageObj = pdfReader.getPage(0) text = pageObj.extract_text()。 7. 保存提取的文本:将提取的文本保存为文本文档。例如,可以使用以下代码将提取的文本保存为名为"文献.txt"的文本文档: with open('文献.txt', 'w', encoding='utf-8') as f: f.write(text)。 8. 关闭文件:使用PyPDF2库的close方法关闭打开的PDF文件。例如,可以使用以下代码关闭文件: file.close()。 通过以上步骤,就可以将格式为PDF的文献转换为文本文档。转换后的文本文档可以在Jupyter Notebook中使用或导入到其他应用程序中进行进一步处理。 ### 回答3: Jupyter是一个非常强大的交互式编程环境,它主要用于处理和分析数据,并提供了丰富的功能和扩展。然而,Jupyter本身并没有直接将PDF文献转换为文本文档的功能。如果我们需要将PDF转换为文本文档,可以借助Python中的一些外部库来实现。 一种可行的方法是使用Python中的`PyPDF2`库来处理PDF文件。首先,我们需要使用`PyPDF2`库打开PDF文献,并将其读取PDF对象。然后,我们可以逐页读取PDF对象的内容并提取文本。最后,将提取到的文本保存为文本文档。 以下是一个简单的代码示例,演示了如何使用`PyPDF2`库将PDF转换为文本文档: ```python import PyPDF2 # 打开PDF文献 pdf_file = open('example.pdf', 'rb') # 替换为实际的PDF文件路径 # 读取PDF对象 pdf = PyPDF2.PdfFileReader(pdf_file) # 遍历每一页并提取文本 text = [] for page in range(pdf.numPages): page_obj = pdf.getPage(page) text.append(page_obj.extract_text()) # 关闭PDF文件 pdf_file.close() # 保存为文本文档 with open('example.txt', 'w', encoding='utf-8') as file: file.write("\n".join(text)) ``` 在上述代码中,我们首先打开PDF文献并创建一个PDF对象。然后,我们遍历每一页,并使用`extract_text()`方法提取文本内容,将其存储在一个列表中。最后,我们将提取到的文本写入一个新的文本文档中。 需要注意的是,由于PDF的复杂性和多样性,不同的PDF文件可能会有不同的文本提取结果。有,由于PDF的格式,文本提取可能会产生一些错误或不准确的结果。因此,在使用该方法进行PDF文献转换,需要进行适当的验证和修正,以确保提取到的文本准确无误。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值