Python编程:利用ImageMagick转换PDF为图片并识别提取图表

思路是这样的:

pdf -> image -> 识别其中的图表 -> 通过PIL截取图片

整个过程尝试了很多方式,最终效果不是很完美,还需要继续探索

包括以下开源库

Tabula

前端截图提取表格数据,效果还可以,使用简单
使用步骤:

  1. 下载 https://tabula.technology/
  2. 启动 Tabula
  3. 打开 http://localhost:8080

如果是安装python的第三方模块,使用命令:

pip install tabula-py

ImageMagick

可以进行图片格式转换,pdf转图片

1、安装ImageMagick
mac

brew install ImageMagick

Linux

yum install ImageMagick  # 安装

yum remove ImageMagick  # 卸载

或者:
官网下载对应平台的压缩包:https://www.imagemagick.org/script/download.php

2、安装ghostscript:
brew install ghostscript

配置ImageMagick环境变量vim ~/.bash_profile

export MAGICK_HOME=/Users/qmp/Applications/ImageMagick-7.0.8
export PATH="$MAGICK_HOME/bin:$PATH"
export DYLD_LIBRARY_PATH="$MAGICK_HOME/lib/"

source ~/.bash_profile

命令行测试

convert -version

convert a.jpg a.png

convert -limit thread 1 names.pdf -background white -alpha remove -colorspace RGB  -colorspace sRGB out.jpg

提高图片质量

$ convert -density 300 -quality 100 test.pdf 1.png

参数解析:

-density 300
图像每英寸面积内的像素点数,数值越高图片质量越高

-quality 100
这个为转换png时的压缩率,100表示不压缩

参数设置:
https://www.imagemagick.org/www/script/convert.php

python库wand

支持ImageMagick接口,只支持6版本,而ImageMagick最新为7版本,Mac上尝试安装不成功
http://docs.wand-py.org/

网络资源

pdf转图片:
http://app.xunjiepdf.com/pdf2jpg
http://pdftoword.55.la/pdf-to-jpg/

百度ai通用图像分析:
https://ai.baidu.com/tech/imagerecognition/general

完整过程

  1. 先使用ImageMagick将pdf文件转为png图片格式
import os

pdfname = "names.pdf"

os.makedirs("out", exist_ok=True)

cmd = (
    "source ~/.bash_profile; "
    "convert "
    "-limit thread 1 {} "
    "-background white "
    "-alpha remove "
    "-colorspace RGB  "
    "-colorspace sRGB "
    "out/out.jpg"
).format(pdfname)

result = os.popen(cmd)
print(result.read())

  1. 通过百度AI接口将图片中的主物体识别出来,获取坐标

from aip import AipImageClassify

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

filename = "name.png"

client = AipImageClassify(APP_ID, API_KEY, SECRET_KEY)

with open(filename, "rb") as f:
    image = f.read()

result = client.objectDetect(image)
print(result)
data = result.get("result")
  1. 通过百度识别出来的坐标,使用PIL将需要的图片截取出来

width = data.get("width")
height = data.get("height")
top = data.get("top")
left = data.get("left")

from PIL import Image

im = Image.open(filename)
box = (left, top, left + width, top + height)
region = im.crop(box)
region.save("cutting.jpg")

参考:

  1. Mac下使用Python进行pdf到image的转换
  2. Python 将pdf转成图片
  3. 利用ImageMagick把pdf批量转换为高质量图片
  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python是一种广泛使用的编程语言,可以通过安装相关的第三方库来实现将PDF文件转换图片。 首先,您需要安装Pythonpdf2image库。该库可以将PDF文件转换为PIL图像,也就是Python Imaging Library图像。 安装pdf2image库后,您可以使用以下代码来将PDF文件转换为图像: ```python from pdf2image import convert_from_path, convert_from_bytes pages = convert_from_path('example.pdf', dpi=200) for page in pages: page.save('example.jpg', 'JPEG') ``` 在上述代码中,convert_from_path函数将PDF文件的路径作为参数,并将dpi设置为200。这将生成一个包含所有PDF页面的列表。然后循环列表中的每一页,并将它们保存为JPEG文件。 您也可以将convert_from_path函数更改为convert_from_bytes函数,该函数可以读取二进制数据而不是文件名,并且可以使用options参数来更改图像的大小和质量。 总之,Python是一种非常强大和灵活的编程语言,可以用来处理几乎所有的任务,包括将PDF文件转换为图像。通过安装pdf2image库并调用相应的函数,您可以快速而轻松地将PDF文件转换为图像。 ### 回答2: Python可以使用一个强大的库来实现将PDF转换图片的功能,这个库叫做“wand”。Wand库是用于在Python中进行ImageMagick的绑定,它可以与ImageMagick库无缝集成,提供了许多工具来处理图像,包括将PDF文件转换成图像的功能。 步骤如下所示: 1. 安装Wand库和ImageMagick库。你需要确保它们都被正确安装在你的计算机上。 2. 导入Wand库并加载所需的图像。你可以使用以下代码导入Wand库。 ``` from wand.image import Image ``` 然后你可以使用以下代码加载你的PDF文件。 ``` with Image(filename='your_file.pdf', resolution=300) as img: img.format = 'png' img.save(filename='your_file.png') ``` 在这个代码示例中,我们首先打开PDF文件,设置转换后的文件格式为PNG,并将转换后的文件保存在磁盘上。 3. 运行你的代码。运行上面的代码来将PDF文件转换成图像,并在你的磁盘上保存为PNG格式文件。你可以使用其他图像格式,比如JPEG,只需简单地使用“jpg”或“jpeg”代替“png”。 总之,使用PythonPDF文件转换成图像是非常简单的。使用Wand库,你可以轻松读取PDF文件并将其转换为图像,从而方便地在你的Python应用程序中使用它们。 ### 回答3: Python可以通过使用pdf2image库来将PDF文件转换图片。首先需要安装pdf2image库,可以使用以下命令: ``` pip install pdf2image ``` 接着,可以使用如下代码: ```python from pdf2image import convert_from_path # PDF文件路径 pdf_path = "example.pdf" # 将PDF转换图片 images = convert_from_path(pdf_path) # 保存图片 for i, image in enumerate(images): image.save(f"output_{i}.jpg", "JPEG") ``` 上述代码中,我们使用pdf2image库中的`convert_from_path()`函数来将PDF转换图片。该函数需要传入PDF文件路径,并返回一个图片列表。我们可以使用Python的循环语句将图片保存到指定的文件夹中。 需要注意的是,pdf2image库依赖于Poppler工具。如果在使用过程中遇到问题,可以尝试先安装Poppler工具,然后重新安装pdf2image库。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值