这篇文章是2015年发表的文章:Logo localization andrecognition in natural images using homographic class graphs。检测自然场景中logo效果很好。
重要的部分或者改进用红色标注。欢迎大家讨论~
背景
检测logo有很多挑战,比如视角变化、弯曲、形状和颜色的变化、遮挡、背景变化等。文章提出了一种在自然图像中定位和分类logo的方法。为了解决视角变化,同一类logo实例的SIFT关键点之间进行单映射匹配。为了解决颜色变化,构建了一个logo互连的加权图,以提取潜在的某个类的多个类实例。通过将各个训练图像映射到中心图像上构建一个类模型。对于彩色反转logo,通过反转第一个类模型的特征方向获得第两个类模型,这将大大提高准确率。
logo是包含了颜色、形状、特征等信息的图形实体。它的定位和识别是目标检测的一个子问题,在现实生活中有很多用处:
(1)在汽车行业,自动的logo识别可以用于营销研究,允许生产者通过分析其运输模式更好地了解客户;在法医学中还补充了车牌识别。
(2)正式文件中logo的识别可以提高分类和处理效率。
(3)在体育领域,logo显示的持续时间和位置很重要,例如赞助商需要保证其logo一定程度的可见度。
(4)一般广告业采用logo检测评估营销活动的影响。
(5)企业收集类似现有logo的证据,发现不正当或未授权使用其logo的侵权等。
方法
1. 特征提取
SIFT特征是很好的描述图像特征的描述子。它对尺度、方向等具有不变性。在自然图像中,logo通常都十分小。若是直接提取SIFT特征,可能提取不到或者只能提取到几个特征点,这对检测是十分不利的。因此在训练图像中,首先剪切出只含有logo的部分作为“训练logo块”,然后再提取SIFT特征。
为了更好地描述logo做了两方面的修改。首先,将SIFT中DoG的边缘阈值从10提高至100。这能够保证在不引入无用的特征点的同时,提取到更多的特征点来描述logo。其次,也是为了提高获得的特征点个数。数据集中测试图像中的logo过于微小,受[2]启发,在测试时,将任何一维小于200像素的测试图像扩大一倍,这将提高准确率。其中200像素是一个经验值。
2. 图像匹配
图像匹配的目的是通过寻找到两张图像的合适的映射关系,揭示图像对之间的空间对应关系。这里的映射关系指的是单应性,即评估将一张图像映射到另一张图像平面的单应性矩阵。(图像拼接)
2.1 单应性矩阵
单映性变换是相同场景的两个图像之间的一种连接,记为H。它可