用 Python 提取 PDF 文本的简单方法

最新推荐文章于 2024-07-31 15:55:27 发布

somenzz

最新推荐文章于 2024-07-31 15:55:27 发布

阅读量6.6k

点赞数 1

文章标签： python 机器学习图像识别 opencv 深度学习

本文链接：https://blog.csdn.net/somenzz/article/details/124440977

版权

你好，我是征哥，一般情况下，Ctrl+C 是最简单的方法，当无法 Ctrl+C 时，我们借助于 Python，以下是具体步骤：

第一步，安装工具库

1、tika — 用于从各种文件格式中进行文档类型检测和内容提取

2、wand — 基于 ctypes 的简单 ImageMagick 绑定

3、pytesseract — OCR 识别工具

创建一个虚拟环境，安装这些工具

python -m venv venv
source venv/bin/activate
pip install tika wand pytesseract

第二步，编写代码

假如 pdf 文件里面既有文字，又有图片，以下代码可以直接识别文字：

import io
import pytesseract
import sys

from PIL import Image
from tika import parser
from wand.image import Image as wi

text_raw = parser.from_file("example.pdf")
print(text_raw['content'].strip())

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

somenzz

关注关注

1
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
用 Python 提取 PDF 文本的简单方法

你好，我是征哥，一般情况下，Ctrl+C 是最简单的方法，当无法 Ctrl+C 时，我们借助于 Python，以下是具体步骤：第一步，安装工具库1、tika — 用于从各种文件格式中进行文档类型检测和内容提取2、wand — 基于 ctypes 的简单 ImageMagick 绑定3、pytesseract — OCR 识别工具创建一个虚拟环境，安装这些工具python...
复制链接

扫一扫