欢迎关注:阿里妈妈技术公众号
本文作者:阿里妈妈风控团队
品牌风险管理是阿里妈妈风险管理中最核心的风险之一,一直备受商家和消费者关注。商家在没有品牌资质的情况下售卖假冒或山寨的品牌商品,会侵犯品牌商及消费者的权益。本文将主要介绍,阿里妈妈品牌风险识别体系是如何一步步炼成的。
一、背景
1.1阿里妈妈品牌风险简介
在阿里妈妈业务中,鉴别品牌风险的第一步是识别出商品相关的品牌,第二步是结合商品的资质去判断是否属于品牌风险。本文重点关注图像中的品牌识别。
假货和山寨问题在业务上的定义包括:
-
涉嫌假冒商品:能判断是明显假货的商品(如低价)
-
涉嫌品牌侵权:出现明确的商标信息(注册商标或品牌中文或英文文字信息)
-
图片遮盖涂抹:存在针对商标信息的恶意遮盖涂抹
-
发布混淆信息(品牌山寨):在商品外观或商标上仿大牌,让消费者认为该商品为某知名品牌商品(主要为国际知名品牌)
左图正品 右图假货
左图正品 右图山寨
鉴别品牌风险第一步是识别出商品相关的品牌,第二步是结合商品的资质去判断是否属于品牌风险。所以阿里妈妈品牌风险识别的核心是品牌识别问题。本文重点关注图像中的品牌识别。
1.2难点与贡献
基于以上背景,我们着手研究品牌识别的整体方案。在提解决方案之前,我们先看一下品牌识别问题的难点。
1.2.1难点
1)数据多样性(品类、展现形式、角度和遮挡等)。
2)品牌特征的多样性(以下都是adidas鞋的特征)。
3)部分数据没有logo或者logo很小。
4)山寨款式变化多样。
5)品牌规模大。
6)违规商品在总商品中占比极小,非对称(正常商品量远大于问题商品量)的场景下,做到高精度和高召回较难。
7)广告场景下对抗激烈,不仅体现在图片上的对抗,还有商品本身的对抗。比如下图一山寨商品买回去可以自己把nike上面多余的一块拆掉,最后一张图看着像匡威,但实际上框里面的文字不是converse。
1.2.2贡献
针对以上问题,我们提出了品牌分类模型+品牌logo检测模型+品牌图像变异识别模型的综合方案,另外我们构建了大规模的品牌数据集,为我们识别能力的构建打下了坚实的基础。
1)品牌分类模型
我们将分类模型应用在品牌识别问题上,验证了分类模型可对局部的小logo或者特征进行识别,取得了不错的效果。
-
一方面,分类模型中每一类可容纳不同的特征类型,只要每一种特征类型相应的数据量足够,就不容易被当成噪声。我们将同一个品牌所有数据当成一类,既解决了数据和品牌特征多样性的问题,又大大降低了数据构造的难度。
-
分类模型不光识别logo,也可以识别款式等非logo特征,解决了基于logo检测的模型无法识别品牌款式的问题,拓展了品牌识别的范围。
-
分类模型计算图片属于每个品牌的置信度,山寨款式天然更像对应的仿的品牌,所以分类模型天然可以召回山寨款式。
-
分类模型的资源损耗和品牌规模无关,10个品牌和100个品牌的计算开销和速度差别不大,经过加速后单台G41可以达到4000 qps,资源开销不再是瓶颈。
2)品牌logo检测模型
虽然分类模型有以上优点,但也有一个比较大的局限性,即分类模型会依赖上下文信息,也就是除了受品牌特征本身影响,也会受商品本身的外观、排列以及背景的影响。比如一双椰子鞋放在一个和正常展示的数据差异非常大的背景中,有可能识别不了,故分类模型容易受到对抗攻击。 检测模型将品牌识别的范围缩小到logo区域,logo的区域不像全图的背景容易发生变化,一般处于商品上或者背景的某个局部上,特征更加稳定,受对抗攻击的影响较小,可以作为一个稳定的识别能力。
3)品牌变异图识别模型
业务上高发变异为图片拼接和商品堆砌(如下图)。拼接和堆砌的图片中商品主体过小,特征不明显,且高发的一些大牌款式违规并不存在logo,分类和检测模型都可能束手无策。不