深度学习目标检测IoU的思考(持续更新)

这段时间在做表格还原的工作,属于版面分析的一个模块。目前已经能做到截图/扫描/拍照表格图像检测,表格信息提取和html写入。可以多平台使用,不需要微软的接口。但在结合ocr的文本检测和文本识别确定表格内容的过程中,只通过单元格坐标和文本检测的坐标设定规则去判定文本是否属于该单元格具有较大的风险。一是极大依赖文本检测和表格坐标提取的准确度,二是,表格框和文本检测框的重叠方式有多种,规则难以自适应。所以想到了借鉴目标检测的IoU思路作为判别条件,同时增加表格是否存在内容判别算法,可进一步减少还原误差。但是在实践过程中发现,原版的IoU并不适用表格和文本框场景。自己根据具体的情况设计了新的IoU判别思路,并仔细学习了最近两年关于IoU的改进论文。本篇博客主要参考GIoU和DIoU,欢迎交流。

DIoU的论文《Faster and Better Learning for Bounding Box Regressing》阅读笔记:

主要内容:文章讨论了IoU和GIoU的弊端,提出了一种CIoU(Complete IoU)用于框回归以及用于NMS的Distance-IoU(即DIoU),并对比了IoU,GIoU和DIoU。DIoU在经典的YOLOv3,SSD和Faster R-CNN检测算法中使得mAP获得了可喜的提高。文章提出,一个好的框回归损失函数必须考虑三个因素:重叠区域,宽高比例和中心点距离。关于IoU,GIoU和DIoU在训练中对比的可视化如图1:

IoU梯度更新时,如果重叠区域为0,则无法跟新梯度信息。知道交并比计算值大小,无法得知实际交并情况。如下图2:

显然最左边的回归效果最好,最右边最差。GIOU则是通过扩大边框尺寸去将目标框包含进来,而DIOU是一开始就不断减少和目标框的距离。从GIOU的损失计算公式上看,GIOU极度依赖IOU项,实验中,GIOU需要更多的迭代计算达到收敛的目的。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值