基于PaddleOCR无法准确识别小图、长图的问题

目的

        飞浆开源的PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地,但是经过我的测试,在小图和长图上,PaddleOCR文本检测模型的效果就大大降低,如果没有大量的数据集就很难解决这个问题,这篇文章将好好讲解下如何解决这个棘手的问题。

问题展现

以下面几个图进行测试,在不修改任何代码的情况下执行命令,看下实际效果

python tools/infer/predict_det.py --det_algorithm="DB" --det_model_dir="./inference/ch_PP-OCRv3_det_infer/" --image_dir="./test/"

测试的小图

    

前三张,没有任何检测框,最后一张检测出了两个框,如下图:

 测试的长图

前一张,没有任何检测框,下两张效果很差,如下图:

解决方式

 1、增加小图数据集然后进行检测训练

        优点:无需修改代码

        缺点:耗时

2、对图片进行预处理,增加图片的大小,给图片加一定大小的边框

        优点:提高了图片的检测效果

        缺点:降低检测速度

下面我们看看如何实现第二种方式,代码如下

if __name__ == "__main__":
    ...

    image_names = os.listdir(args.image_dir)
    index = 0

    for image_file in image_file_list:
        index += 1
        img, flag = check_and_read_gif(image_file)
        if not flag:
            img = cv2.imread(image_file)
        if img is None:
            logger.info("error in loading image:{}".format(image_file))
            continue
        st = time.time()

        # *******************开始*********************
        h, w = img.shape[0], img.shape[1]
        border = [0, 0]
        transform_size = 320  # 图片增加边框到320大小
        if w < transform_size or h < transform_size:
            if h < transform_size:
                border[0] = (transform_size - h) / 2.0
            if w < transform_size:
                border[1] = (transform_size - w) / 2.0
            # top,buttom,left,right 对应边界的像素数目(分别为图像上面, 下面, 左面,右面填充边界的长度)
            img = cv2.copyMakeBorder(img, int(border[0]), int(border[0]), int(border[1]), int(border[1]),
                                     cv2.BORDER_CONSTANT,
                                     value=[215, 215, 215])
        # 保存图片
        image_file = "inference_results/test/" + image_names[index-1]
        cv2.imwrite(image_file, img)
        # *******************结束***********************

        dt_boxes, _ = text_detector(img)

我将图片增加边框到320大小,下面我们来看看实际效果,如下图:

 

可以看到,上面无法检测的小图都检测到了,两个长图效果也大大增加。 

上面是为了观察流程,现在看如何把边框去掉,接上上面的代码,如下:

        # 删除这两行代码
        # image_file = "inference_results/test/" + image_names[index-1]
        # cv2.imwrite(image_file, img)
        # *******************结束***********************

        dt_boxes, _ = text_detector(img)
        
        for bno in range(len(dt_boxes)):
            tmp_box = copy.deepcopy(dt_boxes[bno])
            if transform:
                if border[0] > 0 or border[1] > 0:
                    for i in range(len(tmp_box)):
                        pos = [0, 0]

                        if 0 <= tmp_box[i][0] - border[1] <= w:
                            pos[0] = tmp_box[i][0] - border[1]
                        elif tmp_box[i][0] - border[1] < 0:
                            pos[0] = 0
                        else:
                            pos[0] = w
                        if 0 <= tmp_box[i][1] - border[0] <= h:
                            pos[1] = tmp_box[i][1] - border[0]
                        elif tmp_box[i][1] - border[0] < 0:
                            pos[1] = 0
                        else:
                            pos[1] = h
                        dt_boxes[bno][i] = pos

结果如下:

    

 

总结

        经过上面方式2的调整,基本上小图和长图文字检测有个质的飞跃,如还有其他方式能够提高图片的检测,希望在评论区提供出来,共同进步。

  • 15
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 12
    评论
基于PaddleOCR的车牌号识别模型是一种使用PaddlePaddle深度学习框架开发的算法模型,用于识别图像中的车牌号码。该模型经过训练,能够识别各种位置和角度的车牌,并将其转化为文本形式的车牌号码。 这个模型是基于深度卷积神经网络(CNN)和循环神经网络(RNN)等技术进行构建的。首先,通过卷积层提取图像中的特征,并利用长短时记忆网络(LSTM)等循环神经网络模型对这些特征进行序列建模。接下来,使用CTC(Connectionist Temporal Classification)算法对序列进行解码,以得到最终的车牌号码结果。 这种模型设计能够在不同条件下的车牌图片上进行高效的识别PaddleOCR车牌号识别模型具有较高的准确性和鲁棒性。由于其采用了深度学习算法,并且基于大规模的车牌数据集进行训练,使得模型能够学习到丰富的车牌号特征,并能够在复杂的背景、光照和扭曲变换等情况下进行准确识别。 此外,PaddleOCR车牌号识别模型还具有一定的可扩展性和灵活性。它可以根据具体需求进行模型的优化和定制化,适应不同场景下的车牌识别应用。模型可以在不同的硬件平台上运行,包括服务器和移动设备,可以满足各种实时性要求。同时,PaddleOCR车牌号识别模型还可以与其他图像处理和车牌识别系统结合,实现更为复杂的应用场景。 总之,基于PaddleOCR的车牌号识别模型是一种经过训练的深度学习模型,具有高准确性、鲁棒性和可扩展性,能够有效地实现车牌号码的识别任务。
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

番茄小能手

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值