python-31-提取pdf中的文字和转word工具

(1)Python图像处理之图片文字识别(OCR)
(2)windows下用Python把pdf文件转化为图片

1 OCR与Tesseract

1.1 Tesseract的简介

一、OCR
将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

二、Tesseract
Tesseract是一个OCR库,目前由Google赞助(Google也是一家以OCR和机器学习技术闻名于世的公司)。Tesseract是目前公认最优秀、最精确的开源OCR系统。

除了极高的精确度,Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode字符。

用Tesseract可以识别格式规范的文字,主要具有以下特点:
(1)使用一个标准字体(不包含手写体、草书,或十分“花哨的”字体)。
(2)虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点。
(3)排列整齐,没有歪歪斜斜的字。
(4)没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘。

1.2 Tesseract的安装

Tesseract的Windows安装包下载地址
下载后双击直接安装即可。
安装目录C:\Program Files\Tesseract-OCR。
在这里插入图片描述
安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。
在这里插入图片描述

1.3 Tesseract的使用

1.3.1 识别英文图片

tesseract xxx.png results.txt 

在这里插入图片描述

1.3.2 识别中文图片

识别简体中文,需要事先安装简体中文语言包,下载地址为:
简体中文语言包下载地址,右键下载即可。
在这里插入图片描述
再将chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。

tesseract xxx.png results.txt -l chi_sim

在这里插入图片描述

1.4 pytesseract的使用

pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,还需要一个Python的图片处理模块,可以安装pillow。

import pytesseract
from PIL import Image
cmd_path = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
image_path = r'C:\Users\user\Desktop\2.png'
pytesseract.pytesseract.tesseract_cmd = cmd_path
text = pytesseract.image_to_string(Image.open(image_path),lang="chi_sim")
# 去掉字符串中的所有空格和换行符
text = text.replace(" ", "").replace("\n","")
print(text)

2 提取pdf中的文字

2.1 pdf文件转化为图片

安装库 pip install pymupdf。

# -*- coding: utf-8 -*-
import os
import fitz

pdf = r"C:\Users\user\Desktop\大型网站技术架构.pdf"
doc = fitz.open(pdf)
pdf_name = os.path.splitext(pdf)[0]
print(pdf_name)
print(doc.pageCount)
i = 0

png_dir = r"C:\Users\user\Desktop\mytest"
for pg in range(doc.pageCount):
    i = i + 1
    png_name = str(i)+".png"
    print(i)
    png_path = os.path.join(png_dir, png_name)
    page = doc[pg]
    rotate = int(0)
    # 每个尺寸的缩放系数为2,这将为我们生成分辨率提高四倍的图像。
    zoom_x = 2.0
    zoom_y = 2.0
    trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)
    pm = page.get_pixmap(matrix=trans, alpha=False)
    pm.save(png_path)

在这里插入图片描述

2.2 批量提取图片文字

import pytesseract
from PIL import Image
import os
cmd_path = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

def image2txt(png_path):
    pytesseract.pytesseract.tesseract_cmd = cmd_path
    text = pytesseract.image_to_string(Image.open(png_path),lang="chi_sim")
    # 去掉字符串中的所有空格和换行符
    text = text.replace(" ", "").replace("\n","")
    return text


png_dir = r"C:\Users\user\Desktop\mytest"
num = len(os.listdir(png_dir))
filename = "results.txt"
for i in range(num):
    i = i+1
    png_name = str(i) + ".png"
    png_path = os.path.join(png_dir, png_name)
    re = image2txt(png_path)
    with open(filename,"a+",encoding="utf8") as fw:
        fw.write(str(i)+re+"\n")
    print(i,re)

3 获取PDF文档目录(纲要)

pip install pdfplumber
pip install pymupdf

#-*- coding: utf-8 -*-
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
# 获得目录(纲要)
# 打开一个pdf文件
fp = open(r"C:\Users\user\Desktop\大型网站技术架构.pdf", 'rb')
parser = PDFParser(fp)
document = PDFDocument(parser)

# 获得文档的目录(纲要)
outlines = document.get_outlines()
for (level,title,dest,a,se) in outlines:
    print(level, title)

4 pdf转word工具

4.1 格式工厂和ilovepdf

格式工厂http://www.pcgeshi.com/index.html。
ilovepdf工具https://www.ilovepdf.com/zh-cn/pdf_to_word。

4.2 pdf2docx

pip Install pdf2docx

import pdf2docx

# 将PDF文件转换成Word文档
pdf2docx.parse('example.pdf', 'example.docx')
  • 6
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
如果需要通过OCR(光学字符识别)来批量将PDF文件换为Word文件,可以使用Python的PyPDF2库和pytesseract库来实现。以下是一个基本的示例代码: ```python import os import pytesseract from PIL import Image from pdf2image import convert_from_path from docx import Document # 设置OCR引擎和语言 pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" tessdata_dir_config = '--tessdata-dir "C:\\Program Files\\Tesseract-OCR\\tessdata"' # 设置PDF文件路径和输出Word文件路径 pdf_path = "input.pdf" output_path = "output.docx" # 将PDF换为图片 images = convert_from_path(pdf_path) # 创建一个新的Word文档 doc = Document() # 遍历每一页图片进行OCR换 for i, image in enumerate(images): # 保存图片以便OCR识别 image_path = f"page_{i+1}.png" image.save(image_path, "PNG") # 使用OCR识别图片内容 text = pytesseract.image_to_string(Image.open(image_path), config=tessdata_dir_config) # 将识别的文本添加到Word文档 doc.add_paragraph(text) # 删除临时生成的图片文件 os.remove(image_path) # 保存Word文档 doc.save(output_path) ``` 请确保已安装相关依赖库,可以使用`pip install pytesseract PyPDF2 pdf2image python-docx pillow`命令进行安装。同时,还需要安装Tesseract OCR引擎并设置正确的路径。 以上代码将会将PDF文件的每一页换为图片,然后使用OCR引擎对图片进行识别,并将识别结果逐页添加到Word文档。最终生成的Word文件将保存在`output.docx`路径下。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

皮皮冰燃

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值