Turning a CLIP Model Into a Scene Text Spotter
题目:将CLIP模型转化为场景文本识别器
作者:Wenwen Yu; Yuliang Liu; Xingkui Zhu; Haoyu Cao; Xing Sun; Xiang Bai
源码:https://github.com/wenwenyu/TCM
摘要
我们利用大规模对比语言-图像预训练(CLIP)模型的潜力,增强场景文本检测和识别任务,将其转化为一个强大的骨干网络,FastTCM-CR50。这个骨干网络利用视觉提示学习和CLIP中的交叉注意力来提取图像和基于文本的先验知识。通过预定义和可学习的提示,FastTCM-CR50引入了一个实例-语言匹配过程,以增强图像和文本嵌入之间的协同作用,从而细化文本区域。我们的双模态相似性匹配(BSM)模块促进了动态语言提示的生成,实现了离线计算并提高了性能。FastTCM-CR50提供了几个优势:1)它可以增强现有的文本检测器和识别器,分别将性能提高了平均1.6%和1.5%。2)它超越了以前的TCM-CR50骨干网络,