如何提取PDF其中的一页或多页?推荐4种方法!

工作中,我们经常需要用到PDF文件,如果需要提取PDF文件中的其中一页或多页内容,要如何做呢?下面小编分享4种方法,看下哪种适合你!

方法1:使用复制粘贴

如果PDF文件中需要提取的内容是纯文字,且篇幅不多,我们可以直接将其复制下来,再粘贴到新建的文档中,然后转换成PDF格式即可。

方法2:使用提取文字功能

如果PDF内容无法复制,并且也是纯文字,我们可以使用微信的提取文字功能。

首先,通过微信截图需要提取的内容,然后在功能列表中,选中【提取文字】功能,就可以把文字提取出来,再复制到新建的文档中,然后转换成PDF格式即可。

但是这种方法会失去文本原本的格式,并且可能出现文字错误,需要检查一下。

方法3:使用PDF编辑器

方法1和方法2适合内容少的情况,并且不专业,如果想要专业的提取方法,或者PDF需要提取的内容页数比较多,我们可以使用PDF编辑器。

PDF编辑器通常具备提取功能,只需要通过编辑器打开PDF文件,然后点击菜单选项卡【页面管理】列表中的【提取】选项。

 

弹出【提取页面】对话框后,在“页面范围”中填写需要提取的页码,然后选择“提取模式”,最后点击【确定】,即可将指定的页面提取出来,并保存为一页或多页的PDF。

 

方法4:使用PDF工具

如果没有PDF编辑器,我们可以还可以使用具备多种功能的PDF工具。

以小编使用的PDF工具为例,工具中的【PDF分割】模块,即可用来提取PDF的某一页或多页内容。

在工具里选择【PDF分割】模块后,将需要提取页面的PDF文件导入或者拉拽到工具里,然后按需求选择按“页数拆分”或“定点拆分”,再点击【开始】即可开始提取。

“页数拆分”是指将每一页都拆分为一个新的PDF文档;

“定点拆分”是指将指定页码的那一页或几页拆分为一个新的PDF文档。

 

完成以上操作后,点击工具中右上角“文件”图标,再点击【打开结果文件】即可找到分割后的PDF文件。

 

以上就是PDF提取一页或多页内容的4种方法,你学会了吗? 

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要在Python中提取PDF一页中的多个表格,可以使用第三方库,如PyPDF2或pdfminer。以下是一个使用pdfminer解析PDF提取表格的示例代码: ```python import pdfminer from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage import PDFPage from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizontal, LAParams, LTChar, LTTextLineHorizontal, LTTextBoxVertical, LTTextLine # 获取PDF页面布局信息 def getPageLayout(page): layout = [] for lt_obj in page: if isinstance(lt_obj, LTTextBoxHorizontal): layout.append(lt_obj) elif isinstance(lt_obj, LTTextLineHorizontal): layout.append(lt_obj) return layout # 获取PDF页面中的表格 def getTables(layout): tables = [] for lt_obj in layout: if isinstance(lt_obj, LTTextLineHorizontal) and lt_obj.get_text().startswith('Table'): table = [] for child in lt_obj._objs: if isinstance(child, LTTextLineHorizontal): table.append(child) tables.append(table) return tables # 解析PDF文件并提取表格 def extractTablesFromPDF(pdf_path, page_num): tables = [] fp = open(pdf_path, 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) rsrcmgr = PDFResourceManager() laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) interpreter = PDFPageInterpreter(rsrcmgr, device) for i, page in enumerate(PDFPage.create_pages(doc)): if i == page_num: interpreter.process_page(page) layout = device.get_result() tables = getTables(getPageLayout(layout)) break fp.close() return tables # 指定要提取表格的PDF文件路径和页面编号 pdf_path = 'example.pdf' page_num = 0 tables = extractTablesFromPDF(pdf_path, page_num) # 打印提取到的表格 for i, table in enumerate(tables): print('Table', i+1, ':') for line in table: print(line.get_text().strip()) print('\n') ``` 你可以根据自己的需求对这个示例代码进行进一步修改和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值