提取pdf文件内容

pdfplumber提取文字
import pdfplumber
with pdfplumber.open(‘XXX.Pdf’) as pd:
#pdfplumber.open(PDF路径)
first_page=pdf.pages[0]
#pdf.pages[页数]
print(first_page.extract_text())

pdfplumber提取表格
with pdfplumber.open(‘XXX.Pdf’) as pd:
table_page=pdf.pages[0]
table=table_page.extract_table()
print(table)
#提取多个表格
for table in table_page.extract_tables():
print(table) #table信息为列表类型
提取表格时的设定
table_page.extract_table(
table_settings={
‘vertical_strategy’:‘text’
‘horizontal_strategy’:‘text’
})

写入excel表格文件中
from openpyxl import Workbook
workbook=Workbook()
sheet=workbook.active
for row in table:
sheet.append(row)
workbook.save(filename=‘XXX.xlsx’) #存在空行和将单词分到多个不同列的问题

去除空行,将每个元素连成一个字符串,如果还是一个空字符串那么肯定是空行
new_table=[]
for row in table:
if not ‘’.join([str(item) fo

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提取PDF文件中的内容,可以使用计算机工具进行处理。具体步骤如下: 1. 首先,选择一个合适的PDF阅读软件,如Adobe Acrobat Reader或Foxit Reader等,下载并安装在计算机上。 2. 打开所需提取内容PDF文件。 3. 如果PDF文件是图像化的,需要使用OCR(光学字符识别)软件将图像转换为可编辑的文本。常用的OCR软件有ABBYY FineReader、Adobe Acrobat、Google Docs等。安装和配置好OCR软件后,将PDF文件导入OCR软件,运行文字识别功能,将文本提取出来。 4. 如果PDF文件是可编辑的文本,直接使用PDF阅读软件即可复制所需内容,然后将其粘贴到其他文本编辑软件中进行进一步的编辑和处理。 5. 如果需要批量提取PDF文件中的内容,可以使用PDF文本提取工具,如Adobe Acrobat Pro DC的批量处理功能或其他第三方的PDF提取工具。这些工具可以批量导入PDF文件,设置提取规则和参数,自动提取文件中的文本。 6. 在使用计算机工具提取PDF文件时,还需要注意一些特殊情况,例如PDF文件受到密码保护、存在水印或使用特殊的编码等。对于受密码保护的PDF文件,需要输入正确的密码才能打开和提取内容;对于存在水印的PDF文件,可能需要使用专业的PDF编辑软件进行处理。 总结起来,使用计算机工具提取PDF文件需要选择合适的软件,并按照软件提供的功能和操作指导进行处理,以达到提取所需内容的目的。同时,需要注意特殊情况的处理,以确保提取过程的顺利进行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值