方案六 V3 阿里商品搜索最新版（2018paper）

最新推荐文章于 2024-01-23 01:35:04 发布

TigerZ*

最新推荐文章于 2024-01-23 01:35:04 发布

阅读量445

点赞数

分类专栏：项目类-图像-以图搜图

本文链接：https://blog.csdn.net/u012863603/article/details/86701609

版权

项目类-图像-以图搜图专栏收录该内容

13 篇文章 1 订阅

订阅专栏

阿里巴巴视觉搜索研发团队结合目前最先进的深度学习技术和自身的业务特点，经过4年的迭代研发，其目前视觉搜索系统的主要技术特点：

1.结合分类建模与近邻搜索技术的精准有效的类别预测方法；

2.通过弱监督学习实现目标检测和特征表示的CNN架构的联合学习；

3.通过二值特征索引和重排序技术改进用户体验，实现移动端应用的毫秒级响应。

离线部分涉及到商品类目选择、特征提取、索引构建，模型构建后每日指定时间更新模型。

下面逐步分解其重要的技术细节。

1.商品类别预测

淘宝目前将商品分成14个大类，视觉搜索系统根据用户上传的图像要精确预测用户此刻感兴趣的是哪个类别，比如鞋子、裤子、背包还是帽子等。

研究团队使用模型融合方法精确预测商品类目。

1.1 从商品库图像中选择商品类目的图像。

淘宝有大量的商品，首先通过购物偏好和图像质量选择那些用户在拍照购物场景中经常购买的商品，建立索引，并进行图像去重。

1.2 基于分类模型和图像搜索融合技术的图像类别预测。

基于分类模型的商品类别预测，即训练GoogLeNet V1网络预测查询图像的类别，使用softmax分类函数，得到每一种可能的类别都有一个所属的概率；

基于图像搜索技术的商品类别预测，即使用GoogLeNet V1网络输出的特征在整个图像库中检索最相似的Top30图像，对这30幅图像所在的类别进行加权排序，同样得到每一种可能的类别都有一个所属的概率；

融合方法，将分类模型得到的每类的概率和图像搜索得到的每类的概率加权平均，得到最终的最可能的商品类别。

通过上述简单的融合方法，取得了2%的Top1精度的改进。

2.联合目标检测和特征学习

用户拍摄图像往往含有大面积嘈杂背景，通过检测到用户真正感兴趣的目标可以大幅提高检索精度。

2.1 为了精确地度量查询图像和数据库每一种商品的图像的相似性，采用triplet ranking loss 作为距离度量的损失函数。

这里存在一个很大的问题是，负样本的构造，直觉上使用其他类目的库图像，但其实并不是一个最优的选择，阿里的工程师通过挖掘海量用户的点击行为，直接使用用户的点击图像和非点击图像作为正负样本，使用这样的弱监督信息训练模型。

2.2 统一的联合检测与特征学习的深度排序架构

如上图所示，去除目标的背景，将目标检测出来，裁剪出目标区域再Feed进深度模型进行检索可以得到更佳的检索精度。直观上，可以使用一个目标检测模型（比如SSD、Faster RCNN），但这势必会造成时间开销增大。阿里的工程师选择一种联合学习的方法。如下图：

将原始图像Feed进网络，网络有一个目标定位的分支，预测目标的位置坐标mask，然后将此mask和原始图像求与，将得到的去除背景的图像Feed进检索的特征学习网络。值得一提的是，标注大量的目标框是极其昂贵的，其实这里并没有标注目标框的监督信息被引入，检测分支完全是为了诱导网络去学习一个更有利于后续鉴别特征学习的目标框的坐标。事实证明，这种框架非常有效而且节省大量的标注人力。