图像检索简介--笔记

1. 图像检索入门

文字检索 TBIR
在这里插入图片描述
从内容检索 CBIR
在这里插入图片描述
应用场景:

  • 拍照购
  • 服装检索
  • 人脸识别
  • 内容审核

成熟的图像检索不仅是算法问题,也是一个工程问题

  • 不同的检索任务有不同的检索逻辑和排序逻辑;
    在这里插入图片描述

检索的本质:

  • 特征提取:如何将图像的内容进行有效表示
  • 相似度计算:如何衡量图像的相似性
    在这里插入图片描述

2. 图像检索特征

2.1 挑战:

相差万里的图像也有可能是相似的;

相同物体检索面临的挑战:

  • 光照变化
  • 角度变化
  • 视角变化
  • 遮挡
  • 背景杂乱

相同物体图像检索是指对查询图像中的某一物体,从图像库中找出包含有该物体的图像。这里用户感兴趣的是图像中包含的特定物体或目标,并且检索到的图片应该是包含有该物体的那些图片。如图所示,给定一幅”蒙娜丽莎”的画像,相同物体检索的目标就是要从图像库中检索出那些包含有”蒙娜丽莎”人物的图片,在经过相似性度量排序后这些包含有”蒙娜丽莎”人物的图片尽可能的排在检索结果的前面。相似物体检索在英文文献中一般称为物体检索(Object Retrieval),近似样本搜索或检测(Duplicate Search or Detection)也可以归类于相同物体的检索,并且相同物体检索方法可以直接应用到近似样本搜索或检测上。相同物体检索不论是在研究还是在商业图像搜索产业中都具有重大的价值,比如购物应用中搜索衣服鞋子、人脸检索等。
对于相同物体图像检索,在检索相同的物体或目标时,易受拍摄环境的影响,比如光照变化、尺度变化、视角变化、遮挡以及背景的杂乱等都会对检索结果造成较大的影响,图1.3左图给出了这几种变化的例子,此外,对于非刚性的物体,在进行检索时,物体的形变也会对检索结果造成很大的影响。

相似类别图像检索面临的挑战:

  • 类内变化巨大
  • 类间相似干扰

相同类别图像检索
相似图像检索的目标是从图像库中查找出那些与给定查询图像属于同一类别的图像。这里用户感兴趣的是物体、场景的类别,即用户想要获取的是那些具有相同类别属性的物体或场景的图片。为了更好的区分相同物体检索和相同类别检索这两种检索方式区,仍以图1.3左图所举的”蒙娜丽莎”为例,用户如果感兴趣的就是”蒙娜丽莎”这幅画,那么检索系统此时工作的方式应该是以相同物体检索的方式进行检索,但如果用户感兴趣的并不是”蒙娜丽莎”这幅画本身,而是”画像”这一类图片,也就是说,用户所感兴趣的已经是对这幅具体的画进行了类别概念的抽象,那么此时检索系统应该以相同类别检索的方式进行检索。相同类别图像检索目前已广泛应用于图像搜索引擎,医学影像检索等领域。
对于相同类别图像检索,面临的主要问题是属于同一类别的图像类内变化巨大,而不同类的图像类间差异小。如图1.3右图所示,对于”湖泊”这一类图像,属于该类别的图像在表现形式上存在很大的差异,而对于图1.3右图下面所示的”dog” 类和”woman”类两张图像,虽然它们属于不同的类,但如果采用低层的特征去描述,比如颜色、纹理以及形状等特征,其类间差异非常小,直接采用这些特征是很难将这两者分开的,因此相同类别图像检索在特征描述上存在着较大的类内变化和较小的类间差异等挑战。
在这里插入图片描述

相差万里的图像也有可能是相似的

在这里插入图片描述

2.2 图像特征

图像检索:

  • 如果图像相似,则图像特征也相似;

图像全局特征 :

  • 图像整体的统计信息等;512维度;
  • 关注图像的全局信息,如:颜色直方图、CNN特征
  • 优点:关注全局信息,特征维度固定
  • 缺点: 对尺度变化敏感

图像局部特征:

  • 图像中关键位置,如角点、关键点;N*128维度,N为关键点个数;
  • 关注图像局部信息,如:SIFT关键点
  • 优点: 关注图像局部信息,具有尺度不变性
  • 缺点: 提取的数量不固定,容易受到文字影响

问:如果使用图像局部特征,如何进行相似度计算?
答:可以使用局部特征点的匹配个数,如果匹配个数较多,则为相似图像;
但如果有N张图像,则两两之间匹配,需要分别计算N*(N-1)/2次;

在这里插入图片描述
词袋模型
词袋模型:统计单词出现的次数;
句子A:[‘我’, ‘爱吃’, ‘菠萝’, ‘苹果’] 句子B:[‘我’, ‘爱吃’, ‘苹果’, ‘香蕉’]
所有的单词空间:[‘我’,‘爱吃’,‘菠萝’,‘苹果’,’香蕉’]
句子A:[1, 1, 1, 1, 0] 句子B:[1, 1, 0, 1, 1]
在这里插入图片描述

3. 图像检索案例

图像检索与图像分类的关系:

  • 对于TBIR,则可以使用图像分类完成图像打标签操作;
  • 对于CBIR,则可以利用图像分类完成特征提取(或类别划分);

图像在预训练好的CNN中计算得到的feature map:C * H * W;

  • 与其他全局特征相比,是非常有效的特征;
  • 可以利用GPU快速计算,能够并行计算;
  • 能够利用预训练模型的信息;

图像检索比赛的类别(暂不考虑图像分类比赛):

  • 相似/相同图像检索;
  • 人脸/服饰/地标检索;
  • 有标签/无标签数据;
  • 图像/视频检索;
  • 单模态/多模态/跨模态检索;
    在这里插入图片描述

3.1 如何对图像CHW的feature map进行编码?

- 在无标签情况下:
- [ ] MAC:max-pooling
- [ ] SPoC:mean-pooling
- [ ] R-MAC:Region-MAC
在这里插入图片描述

  • 有标签情况下
    • GeM:广义归一化编码;
    • 使用分类或者排序损失微调CNN模型;
      在这里插入图片描述
      https://github.com/MachineLP/conditional-similarity-networks-Tensorflow

3.2 在跨模态情况下:如何完成跨模态的检索?

  • 通过文本检索图像?
  • 通过图像检索文本?
    在这里插入图片描述

KDD Cup2020:多模态检索
KDD Cup2020:https://tianchi.aliyun.com/competition/entrance/231786/information

  • 给定了query的文本,product的类别信息和物体信息;
  • 完成文本到商品的检索,商品3M量级,非常有挑战性;
    在这里插入图片描述

在这里插入图片描述

总结

图像检索是针对特定任务的,不同的任务侧重不同的特征:

  • 需要不断尝试和实验(CNN预训练模型、池化层);
  • 根据不同的检索任务,需要不同的检索逻辑;

图像检索是视觉场景下的检索任务:

  • 方向:视觉特征表达、视觉特征压缩和视觉特征跨模态转换;
  • 场景:不同应用有不同的标注数据,有各自的训练方法;
  • 应用:如何在精度和检索速度上做折中?如何加快检索速度;
  • 5
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值