PaddleOCR中如何求两个文件的差集

本文介绍了在使用PaddleOCR过程中,如何处理检测框不准确和识别结果缺失的问题。通过将所有图片路径转化为集合并计算差集,找出未被正确识别的数据,以便进一步处理和训练。
摘要由CSDN通过智能技术生成

1.检测框不准确或者识别错误

PaddleOCR中会有检测器(det)和识别器(rec),对已有的图片进行检测识别,会有一些检测框不准确或者识别错误的情况,这个时候需要把那些错误的数据都找出来,单独放在一个文件夹中,然后去总数据中对这些有问题的数据重新标好检测框和识别结果,然后再在之后进行训练

2.有些数据没有识别结果

这种情况就是最终识别的结果要比已有的数据要少,就是有些数据因为一些原因没有标记到检测框,首先,如果数据量小的话,还是可以一张一张地去核对,但是如果数据量是比较大的,尤其是上万的,那么这个时候就需要用代码操作来直接找出哪些数据是被遗漏的,再重新做处理。

2.1 导包

import os

2.2 路径

一个是总数据的路径(Image),一个是识别结果存放的路径(output)

image_path = "C:/Users/86775/Desktop/Image/"
output_path = 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值