目录
4. 为什么选择SPCNet、DenseASPP、M2Det
1. 文本检测是什么
与通用目标检测不同,分为文本和非文本两类,且任务要求仅检测有文本的区域,背景不包含在里面。因此对于弯曲文本,用矩形框无法很好的完成任务。
2. LSVT和ArT比赛
LSVT大部分为街景标志和广告牌等文本,存在同一个文本区域内文字之间间距过大,有大量横向与纵向的文本,因此容易将横向与纵向的文本识别混淆。ArT有三分之一文本为弯曲文本,且有很多弯曲幅度很大,因此矩形框难以准确框出文本区域。
3. 为什么选用MaskRCNN
目前文本检测分为两大分支:一类是基于Bbox的,如EAST、RRPN等;一类是基于Mask的,如MaskRCNN、SPCNet、PixelLink等。由于ArT存在大量弯曲文本,矩形框与弯曲文本IoU难以达到0.5,因此选用MaskRCNN系列作为Baseline。
本文详细介绍了商汤科技面试中涉及的AI算法问题,包括文本检测的挑战、LSVT和ArT比赛的特点、MaskRCNN的选择原因,以及SPCNet、DenseASPP和M2Det在文本检测中的应用。此外,还讨论了Anchor Free目标检测的优缺点和相关论文的工作流程,以及应对正负样本不平衡的策略。最后,探讨了算法题目的解决方法和C++实现Focal Loss的实现题。
订阅专栏 解锁全文
750

被折叠的 条评论
为什么被折叠?



