实现一个文字识别（图片转文字）工具

最新推荐文章于 2024-03-13 16:47:25 发布

George_Clancy

最新推荐文章于 2024-03-13 16:47:25 发布

阅读量2.9k

点赞数

分类专栏：工具实现文章标签： python ocr

本文链接：https://blog.csdn.net/george_clancy/article/details/105551872

版权

00 前言

最近做ppt，看到有些图片中的文字内容很好，一张一张地码字很累还很费时间。就想着有空做一个文字识别的小工具，方便办公流程。在网上查了一下资料，百度智能云提供了文字识别的接口，可以直接调用，挺方便的。于是就做了一个小工具，和大家分享一下制作过程。

01 准备

01 -1 虚拟环境

本文所用版本是python3.8.2，新版的python都自带一个创建虚拟环境模块。新建一个工作目录名叫Image2Text。

mkdir Image2Text     //也可以直接用鼠标右键创建文件夹
cd Image2Text        //进入项目文件夹
python -m venv venv     //创建虚拟环境，第一个venv是包名，第二个是创建虚环境名字（可以用项目名）

然后在venv文件夹下我们看到如下的目录，虚拟环境激活后才能使用，激活的脚本在Scripts里面。

于是，我们进到Scripts文件夹里面，执行激活脚本。使用activate激活（使用deactivate.bat 退出）。

01 -2 安装依赖

其中PySide2是做界面的。baidu-aip 是调用的百度的文字识别接口，是主要功能。

 pip3 install PySide2
 pip install baidu-aip

注：之前使用pyQt5出现了qt.qpa.plugin: Could not find the Qt platform plugin "windows"这个问题，然后用pip3 install PySide2下载PySide2，并修改了路径。

01 -3 图片识别SDK

根据百度的文本识别SDK介绍（https://ai.baidu.com/ai-doc/OCR/Dk3h7yf8m），我们需要注册百度智能云的账户，并在安全中心获取API_KEY(对应百度智能云的“Access Key ID”）和SECRET_KEY(对应百度智能云的“Access Key Secret”）。

02 开始

02-1 调用接口测试

百度文本识别的接口很丰富，有通用文本识别、包含位置信息的文本识别、驾照识别等等。我这里面用的是通用的文本识别，首先，新建一个orc_util.py文件引用接口并说明认证信息。

from aip import AipOcr
# 添加认证信息，这里面的api密钥和secret密钥可以去百度智能云免费申请
APP_ID = ''
API_KEY = 'd7a50f1938xxxxxxxxxx5277a51e23'
SECRET_KEY = 'e6ca46bdxxxxxxxxxxxx053cf288b'

然后，我们定义一个获取图片的方法。

def get_ocr_str(file_path, origin_format=True):
    """
    获取图片比特流
    :param file_path: 图片路径
    :return: 函数get_ocr_str_from_bytes（）的结果
    """
    with open(file_path, 'rb') as fp:
        file_bytes = fp.read()
    return get_ocr_str_from_bytes(file_bytes, origin_format)

然后定义一个转换方法，设置options参数（不检测文本方向，语言模式为中英文），实例化一个AipOcr类，调用basicGeneral()接口。通用文字识别的请求参数见表1，通用文字识别的

最低0.47元/天解锁文章

George_Clancy

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
实现一个文字识别（图片转文字）工具

00 前言01 python相关01 -1 虚拟环境本文所用版本是python3.8.2，新版的python都自带一个创建虚拟环境模块。新建一个工作目录名叫Image2Text。mkdir Image2Text //也可以直接用鼠标右键创建文件夹cd Image2Text //进入项目文件夹python -m venv venv //创建虚拟环境...
复制链接

扫一扫

专栏目录