基于PaddleOCR无法准确识别小图、长图的问题

番茄小能手

已于 2023-08-10 18:00:43 修改

阅读量6.6k

点赞数 15

分类专栏： PaddleOCR 文章标签： python 计算机视觉

于 2022-05-30 09:45:23 首次发布

本文链接：https://blog.csdn.net/YY007H/article/details/124973777

版权

PaddleOCR 专栏收录该内容

20 篇文章 37 订阅

订阅专栏

目的

飞浆开源的PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型，并应用落地，但是经过我的测试，在小图和长图上，PaddleOCR文本检测模型的效果就大大降低，如果没有大量的数据集就很难解决这个问题，这篇文章将好好讲解下如何解决这个棘手的问题。

问题展现

以下面几个图进行测试，在不修改任何代码的情况下执行命令，看下实际效果

python tools/infer/predict_det.py --det_algorithm="DB" --det_model_dir="./inference/ch_PP-OCRv3_det_infer/" --image_dir="./test/"

测试的小图：

前三张，没有任何检测框，最后一张检测出了两个框，如下图：

测试的长图：

前一张，没有任何检测框，下两张效果很差，如下图：

解决方式

1、增加小图数据集然后进行检测训练

优点：无需修改代码

缺点：耗时

2、对图片进行预处理，增加图片的大小，给图片加一定大小的边框

优点：提高了图片的检测效果

缺点：降低检测速度

下面我们看看如何实现第二种方式，代码如下

if __name__ == "__main__":
    ...

    image_names = os.listdir(args.image_dir)
    index = 0

    for image_file in image_file_list:
        index += 1
        img, flag = check_and_read_gif(image_file)
        if not flag:
            img = cv2.imread(image_file)
        if img is None:
            logger.info("error in loading image:{}".format(image_file))
            continue
        st = time.time()

        # *******************开始*********************
        h, w = img.shape[0], img.shape[1]
        border = [0, 0]
        transform_size = 320  # 图片增加边框到320大小
        if w < transform_size or h < transform_size:
            if h < transform_size:
                border[0] = (transform_size - h) / 2.0
            if w < transform_size:
                border[1] = (transform_size - w) / 2.0
            # top，buttom，left，right 对应边界的像素数目（分别为图像上面， 下面， 左面，右面填充边界的长度）
            img = cv2.copyMakeBorder(img, int(border[0]), int(border[0]), int(border[1]), int(border[1]),
                                     cv2.BORDER_CONSTANT,
                                     value=[215, 215, 215])
        # 保存图片
        image_file = "inference_results/test/" + image_names[index-1]
        cv2.imwrite(image_file, img)
        # *******************结束***********************

        dt_boxes, _ = text_detector(img)

我将图片增加边框到320大小，下面我们来看看实际效果，如下图：

可以看到，上面无法检测的小图都检测到了，两个长图效果也大大增加。

上面是为了观察流程，现在看如何把边框去掉，接上上面的代码，如下：

        # 删除这两行代码
        # image_file = "inference_results/test/" + image_names[index-1]
        # cv2.imwrite(image_file, img)
        # *******************结束***********************

        dt_boxes, _ = text_detector(img)
        
        for bno in range(len(dt_boxes)):
            tmp_box = copy.deepcopy(dt_boxes[bno])
            if transform:
                if border[0] > 0 or border[1] > 0:
                    for i in range(len(tmp_box)):
                        pos = [0, 0]

                        if 0 <= tmp_box[i][0] - border[1] <= w:
                            pos[0] = tmp_box[i][0] - border[1]
                        elif tmp_box[i][0] - border[1] < 0:
                            pos[0] = 0
                        else:
                            pos[0] = w
                        if 0 <= tmp_box[i][1] - border[0] <= h:
                            pos[1] = tmp_box[i][1] - border[0]
                        elif tmp_box[i][1] - border[0] < 0:
                            pos[1] = 0
                        else:
                            pos[1] = h
                        dt_boxes[bno][i] = pos

结果如下：