pytesseract图像识别不准确

我是花臂不花

已于 2023-08-01 17:09:46 修改

阅读量1.1k

点赞数 2

分类专栏：随笔大杂烩文章标签： python pillow

于 2023-08-01 16:02:09 首次发布

本文链接：https://blog.csdn.net/u010226586/article/details/132043931

版权

随笔大杂烩专栏收录该内容

23 篇文章 1 订阅

订阅专栏

一定要将图片二值化，转化图像为白底黑字

案例代码python

import pytesseract
from PIL import Image


def read_img_ocr(img_path, standard=205):
    """
    读取图片中文字内容
    :param img_path:
    :return:
    """
    img = Image.open(img_path)
    # 在将图片灰度转换，二值化
    img = img.convert('L')
    pixels = img.load()
    for x in range(img.width):
        for y in range(img.height):
            if pixels[x, y] > standard:
                pixels[x, y] = 255
            else:
                pixels[x, y] = 0
    # 图像识别
    result = pytesseract.image_to_string(img, config=r'--oem 3 --psm 6 -l chi_sim+eng')
    lines = result.split()
    return lines


if __name__ == '__main__':
    res = read_img_ocr('../target_img/image-017.png')
    print(res)

通常来说，白底黑字的图像在 OCR方面更容易获得更好的准确性，这是因为黑色字体在白色背景上形成更强的对比度，有利于文字的分割和识别。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我是花臂不花

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
pytesseract图像识别不准确

通常来说，白底黑字的图像在 OCR方面更容易获得更好的准确性，这是因为黑色字体在白色背景上形成更强的对比度，有利于文字的分割和识别。一定要将图片二值化，转化图像为白底黑字。案例代码python。
复制链接

扫一扫