pdf的roc图片识别并写入word

最新推荐文章于 2023-03-25 23:19:17 发布

cool的迷茫

最新推荐文章于 2023-03-25 23:19:17 发布

阅读量348

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_44256320/article/details/120706422

版权

pdf的roc图片识别并写入word

背景

女朋友考研，有一本专业课的电子版书籍，还有一个知识点手册，她需要根据知识点手册的重点词汇来找的该内容在电子版书籍的哪一页，或者是在哪一块

前提

1.安装 pytesseract库，fitz库
2.下载tesseract.exe

首先我将pdf中的图片一个一个存入某个文件夹，这里应用了fitz库进行pdf的图片提取，代码如下：

import fitz
import re
import os


def pdf2pic(path, pic_path):
    '''
    # 从pdf中提取图片
    :param path: pdf的路径
    :param pic_path: 图片保存的路径
    :return:
    '''
    # 打开pdf
    doc = fitz.open(path)
    nums = doc.xref_length()
    imgcount = 0  # 图像计数

    # 遍历每一个对象
    for i in range(1, nums):
        text = doc.xref_object(i)
        # print(i, text)
        # 过滤无用图片
        if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text):
            continue

            # 使用正则表达式来查找图片
        checkXO = r"/Type(?= */XObject)"
        checkIM = r"/Subtype(?= */Image)"

        isXObject = re

最低0.47元/天解锁文章

cool的迷茫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pdf的roc图片识别并写入word

pdf进行roc图片识别并写入word背景女朋友考研，有一本专业课的电子版书籍，还有一个知识点手册，她需要根据知识点手册的重点词汇来找的该内容在电子版书籍的哪一页，或者是在哪一块前提1.安装 pytesseract库，fitz库2.下载tesseract.exe首先我将pdf中的图片一个一个存入某个文件夹，这里应用了fitz库进行pdf的图片提取，代码如下：import fitzimport reimport osdef pdf2pic(path, pic_path): ''
复制链接

扫一扫

专栏目录