PaddleOCR中如何求两个文件的差集
1.检测框不准确或者识别错误
PaddleOCR中会有检测器(det)和识别器(rec),对已有的图片进行检测识别,会有一些检测框不准确或者识别错误的情况,这个时候需要把那些错误的数据都找出来,单独放在一个文件夹中,然后去总数据中对这些有问题的数据重新标好检测框和识别结果,然后再在之后进行训练
2.有些数据没有识别结果
这种情况就是最终识别的结果要比已有的数据要少,就是有些数据因为一些原因没有标记到检测框,首先,如果数据量小的话,还是可以一张一张地去核对,但是如果数据量是比较大的,尤其是上万的,那么这个时候就需要用代码操作来直接找出哪些数据是被遗漏的,再重新做处理。
2.1 导包
import os
2.2 路径
一个是总数据的路径(Image),一个是识别结果存放的路径(output)
image_path = "C:/Users/86775/Desktop/Image/"
output_path =