提取PDF中的图片

文章探讨了使用Pymupdf、pdfminer等Python库从PDF中提取图片的问题,发现它们无法处理Word图表。Inkscape能转为矢量图,但可能造成数字丢失。通过Word转换,无论是python包、在线工具还是直接打开,都存在图片格式不一致、清晰度损失和组合图片等问题。
摘要由CSDN通过智能技术生成
  1. Pymupdf 只能提取以“图片”形式插入的,不能提取word中作的图表

  1. pdfminer 同上

  1. pdf-图片,使用百度api接口提取 效果不好

  1. Inkscape可以对pdf操作,将提取的内容转为矢量图

  1. pdf-word, word另存为“网页”,得到一个都是图片的文件夹。

pdf-word有多种方式: 以下图片是描述矢量图

1.python包转,有一些图片没转出来,word-文件后,图片格式为jpg/png,图上数字丢失

2.网上工具转,word中图片是全的,但是word-文件后:a.还是丢失了一些图 b.矢量图对应gif格式,无背景,插入在word里边的不光滑,成像素点了,图上数字丢失

3.pdf直接用word打开,这样转出来全,但是:1.部分图是png/jpg,部分是gif 2.也是模糊的 3.而且同一行多个图片,会被转成一个图

考虑python提取word中的图片...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值