EasyOCR文字识别案例

EasyOCR介绍

EasyOCR 是一个用 Python 编写的 OCR 库,用于识别图像中的文字并输出为文本,支持 80 多种语言。检测部分使用CRAFT算法,识别模型为CRNN,由3个组件组成:特征提取Resnet、序列标记LSTM、解码CTC。整个深度学习过程基于pytorch实现。

图片--预处理(去噪、色彩饱和度、尖锐处理等)--文字检测(CRAFT)--中间处理(倾斜处理等)---文字识别---后续处理---输出结果

API文档1、easyocr.Reader class:

参数:
lang_list (list) - 识别的语言代码列表,例如 ['ch_sim','en']
gpu (bool, string, default = True) - 启用 GPU
model_storage_directory (string, default = None) - 模型数据目录的路径。如果未指定,将从环境变量 EASYOCR_MODULE_PATH(首选)、MODULE_PATH(如果已定义)或 ~/.EasyOCR/ 定义的目录中读取模型。
download_enabled (bool, default = True) - 如果 EasyOCR 无法找到模型文件,则启用下载;
user_network_directory (bool, default = None) - 用户模型存储的路径。如果未指定,将从 MODULE_PATH + '/user_network' (~/.EasyOCR/user_network) 读取模型;
recog_network (string, default = 'standard') - 用户模型、模块和配置文件的名称;
detector (bool, default = True) - 将检测模型加载到内存中 
recognizer (bool, default = True) - 将识别模型加载到内存中
属性:
lang_char - 显示当前模型中的所有可用字符

2、reader.readtext()

Reader对象的主要方法。有 4 组参数:General、Contrast、Text Detection 和 Bounding Box Merging。
参数1:General
image (string, numpy array, byte) - 输入图像;
decoder (string, default = 'greedy')- 选项有 'greedy'、'beamsearch' 和 'wordbeamsearch';
beamWidth (int, default = 5) - 当解码器 = 'beamsearch' 或 'wordbeamsearch' 时要保留多少光束;
batch_size (int, default = 1) - batch_size>1 将使 EasyOCR 更快但使用更多内存;
worker (int, default = 0) - 数据加载器中使用的编号线程;
allowlist (string) - 强制 EasyOCR 只识别字符的子集。对特定问题有用(例如车牌等);
blocklist (string) - 字符的块子集。如果给定了允许列表,则此参数将被忽略。
detail (int, default = 1) - 将此设置为 0 以进行简单输出;
paragraph (bool, default = False) - 将结果合并到段落中;
min_size (int, default = 10) - 过滤文本框小于最小值(以像素为单位);
rotation_info (list, default = None) - 允许 EasyOCR 旋转每个文本框并返回具有最佳置信度分数的文本框。符合条件的值为 90、180 和 270。例如,对所有可能的文本方向尝试 [90, 180 ,270]。
参数2:Contrast 对比度
contrast_ths (float, default = 0.1) - 对比度低于此值的文本框将被传入模型 2 次。首先是原始图像,其次是对比度调整为“adjust_contrast”值。结果将返回具有更高置信度的那个;
adjust_contrast (float, default = 0.5) - 低对比度文本框的目标对比度级别。
参数3:Text Detection 文本检测(来自CRAFT)
text_threshold (float, default = 0.7) - 文本置信度阈值
low_text (float, default = 0.4) - 文本下限分数
link_threshold (float, default = 0.4) - 链接置信度阈值
canvas_size (int, default = 2560) - 最大图像尺寸。大于此值的图像将被缩小。
mag_ratio (float, default = 1) - 图像放大率
参数4:Bounding Box Merging 边界框合并
    这组参数控制相邻边界框何时相互合并。除了 'slope_ths' 之外的所有参数都以盒子高度为单位。
slope_ths (float, default = 0.1) - 考虑合并的最大斜率 (delta y/delta x)。低值意味着不会合并平铺框。
ycenter_ths (float, default = 0.5) - y 方向的最大偏移。不应该合并不同级别的框。
height_ths (float, default = 0.5) - 盒子高度的最大差异。不应合并文本大小非常不同的框。
width_ths (float, default = 0.5) - 合并框的最大水平距离。
add_margin (float, default = 0.1) - 将边界框向所有方向扩展某个值。这对于具有复杂脚本的语言(例如泰语)很重要。
x_ths (float, default = 1.0) - 当段落=True 时合并文本框的最大水平距离。
y_ths (float, default = 0.5) - 当段落 = True 时合并文本框的最大垂直距离。
返回:结果列表
EasyOCR实例

步骤一:下载相关包

pip install easyocr -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install opencv-python==4.5.1.48 -i https://pypi.tuna.tsinghua.edu.cn/simple

步骤二:创建sourceai/model/ocr/custom/easyorc_case.py文件

def ocr(path):
    # 导入easyocr
    import easyocr
    # 创建reader对象
    reader = easyocr.Reader(['ch_sim', 'en'])
    # 读取图像
    result = reader.readtext(path)
    # 结果
    print(result)
    return result
​
if __name__ == '__main__':
    ocr("wenzi.jpg")

步骤三:在sourceai/model/ocr/custom/文件夹下放置wenzi.jpg图片,执行easyorc_case.py文件,查看效果

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值