#Python OCR识别pdf、jpg、png等格式图片中的文字并语音朗读（示例）

鹓于

于 2024-11-13 20:58:29 发布

阅读量474

点赞数 3

文章标签： python ocr pdf

本文链接：https://blog.csdn.net/m0_60781580/article/details/143752273

版权

以下是一个使用 Python 实现 OCR（光学字符识别）识别图片中的文字并进行语音读取的示例步骤。这个示例将使用 pytesseract 库进行 OCR 识别，使用 gTTS（Google Text-to-Speech）库将识别出的文字转换为语音并播放（需要安装相应的音频播放库，如 playsound）。
1. 安装所需库
首先确保已经安装了以下库：
pytesseract：用于 OCR 识别。可以通过 pip install pytesseract 安装。
gTTS：用于将文字转换为语音。通过 pip install gTTS 安装。
playsound：用于播放生成的语音文件（可选，也可使用其他音频播放方式）。通过 pip install playsound 安装。
另外，还需要安装 Tesseract OCR 引擎，可以根据你的操作系统进行相应的安装：
Windows：从 Tesseract at UB Mannheim 下载安装包进行安装，安装完成后需要将 Tesseract 的安装路径添加到系统环境变量 PATH 中。
2. 导入所需库

import pytesseract
from gttS import gTTS
from PIL import Image
import playsound
import os

3. 定义函数进行 OCR 识别和语音读取

def ocr_and_speech(image_path):
    # 使用pytesseract进行OCR识别
    text = pytesseract.image_to_string(Image.open(image_path))

    # 如果识别出了文字
    if text.strip():
        # 使用gTTS将文字转换为语音
        tts = gTTS(text=text, lang='en')  # 这里可以根据需要设置语言，如 'zh-cn' 表示中文等
        audio_path = "output.mp3"
        tts.save(audio_path)

        # 播放语音
        playsound.playsound(audio_path)

        # 删除临时生成的音频文件
        os.remove(audio_path)
    else:
        print("未识别出有效文字。")

4. 调用函数
假设你有一张名为 test_image.jpg 的图片，你可以通过以下方式调用上述函数：

image_path = "test_image.jpg"
ocr_and_speech(image_path)

在上述代码中：
首先通过 pytesseract.image_to_string 函数对指定路径的图片进行 OCR 识别，获取其中的文字内容。
如果识别出了有效文字，就使用 gTTS 将文字转换为语音文件，并保存为 output.mp3。
然后使用 playsound 播放该语音文件，播放完成后删除临时生成的音频文件以节省空间。
请注意：
图片的清晰度、文字的字体、颜色等因素可能会影响 OCR 识别的准确率。
在设置 gTTS 的语言参数时，要确保选择了正确的语言代码以获得准确的语音效果。

当然以上功能也可以通过手机端的阅读软件实现