Python 使用camelot将PDF转Excel,简单实用

安装camelot

Camelot在读取PDF文件中的表格数据很好用,因此安装这个包就很有需要了,但是直接在cmd里面使用pip install camelot-py会出错,首先提示pip版本需要更新到最新版本,更新之后提示错误Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。这个时候就需要更改文件的权限,将权限更改为【完全控制】。然后执行pip install camelot-py即可。

如果遇见ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: 'C:\\Users\\zzg\\AppData\\Local\\Temp\\pip-uninstall-u4t4npkt\\pip.exe'
Consider using the `--user` option or check the permissions.这种错误提示,请在pip里面添加--user

pip install --user camelot-py

更多的详细信息,请参考项目地址:https://github.com/camelot-dev/camelot


安装cv2

在安装完camelot-py之后,执行import camelot会报错,提示没有安装cv2,这就得你去cmd里面重新安装cv2了。
直接pip install cv2报错的话,
改成pip install opencv-python即可。


某市生产总值

python程序:

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='70',flavor='stream')
data1[0].to_csv('data1.csv',encoding='utf_8_sig')


转换后的excel文件数据:

转换后

 

转换成功!!!

这里展示的是提取一页的数据,如果想提取多页数据怎么整呢?

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1,5,7,8,9',flavor='stream')
data1[0].to_csv('data1.csv',encoding='utf_8_sig')

这是提取特殊的页数,如果想提取所有页面

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1-70',flavor='stream')
data1.to_csv('data1.csv',encoding='utf_8_sig')

这里导出的数据,是按照每一页导出一个报表展示的

如果想打印获取的data1数据,可以使用df方法来给数据转化为DataFrame格式:

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1-70',flavor='stream')
data1.to_csv('data1.csv',encoding='utf_8_sig')
print(table1[0].df) 

 

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 你可以使用 Python 的第三方库来将 PDF 换为文本。下面是一个使用 PyPDF2 库的示例代码: ```python import PyPDF2 # 打开 PDF 文件 with open('document.pdf', 'rb') as file: # 创建一个 PDF 对象 pdf = PyPDF2.PdfFileReader(file) # 获取 PDF 文件中的每一页 for page in range(pdf.getNumPages()): # 读取每一页的文本 text = pdf.getPage(page).extractText() print(text) ``` 在上面的代码中,我们使用了 PyPDF2 库中的 `PdfFileReader` 函数来读取 PDF 文件,然后使用 `getNumPages` 函数获取 PDF 文件中的页数,并使用 `getPage` 函数读取每一页,最后使用 `extractText` 函数提取页面中的文本。 你还可以使用其他的库,比如 PDFMiner、slate 和 camelot,来实现 PDF 换为文本的功能。 希望这个答案能够帮到你! ### 回答2: 将PDF换成文本,可以使用Python中的pdfplumber库。下面是一个简单的代码示例: ```python import pdfplumber def convert_pdf_to_text(pdf_path): with pdfplumber.open(pdf_path) as pdf: text = "" for page in pdf.pages: text += page.extract_text() return text pdf_path = "path/to/your/file.pdf" text = convert_pdf_to_text(pdf_path) print(text) ``` 首先,我们导入pdfplumber库。然后,定义一个名为`convert_pdf_to_text`的函数,它接受一个PDF文件路径作为参数。在函数内部,我们使用`pdfplumber.open`打开PDF文件,并使用`with`语句确保在使用完后关闭文件。 接下来,我们创建一个空字符串变量`text`用于存储提取的文本内容。我们使用一个for循环遍历PDF的每一页,通过`page.extract_text()`方法将每一页的文本内容提取出来,并将其添加到`text`变量中。 最后,我们返回提取出的文本内容。你可以将`pdf_path`设置为你要换的PDF文件的路径。最后一行代码用于打印换后的文本内容,你可以根据具体需求进行调整。 ### 回答3: 要将PDF换为文本,可以使用Python编写代码来实现。 首先,需要安装PyPDF2库。可以使用以下命令来安装该库: ``` pip install PyPDF2 ``` 接下来,可以采用以下步骤进行PDF文本的操作: 1. 导入所需的库: ```python import PyPDF2 ``` 2. 打开PDF文件: ```python pdf_file = open('example.pdf', 'rb') # 替换为实际的PDF文件路径 ``` 3. 创建PDF阅读器对象: ```python pdf_reader = PyPDF2.PdfReader(pdf_file) ``` 4. 获取PDF文件的页数: ```python num_pages = pdf_reader.numPages ``` 5. 创建一个字符串变量来保存文本内容: ```python text = '' ``` 6. 循环读取每一页的内容并添加到文本变量中: ```python for page in range(num_pages): page_obj = pdf_reader.getPage(page) text += page_obj.extractText() ``` 7. 关闭PDF文件: ```python pdf_file.close() ``` 8. 输出换后的文本: ```python print(text) ``` 上述代码可以将PDF文件的所有页内容提取并保存到`text`变量中。如果要保存到文件中,可以使用类似以下代码: ```python output_file = open('output.txt', 'w') output_file.write(text) output_file.close() ``` 请注意,由于PDF的特殊性,换结果可能不完全准确,并且在处理复杂的PDF文件时可能会出现问题。因此,如果遇到换不准确或者出现其他问题的情况,可能需要尝试其他PDF处理库或者专用的PDF换工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值