Video Google: A Text Retrieval Approach to Object Matching in Videos

最新推荐文章于 2024-04-17 09:54:08 发布

recognition

最新推荐文章于 2024-04-17 09:54:08 发布

阅读量4.6k

点赞数 7

文章标签： google object video 文档 youtube 算法

本文链接：https://blog.csdn.net/recognition/article/details/7901101

版权

最近一段时间，一直在看一些图像检索相关的文章，因为现在Google图片搜索功能做的貌似不错，所以在查找关于这方面的文章时不可避免的想要探索一下Google图片搜索的一些原理。然后偶然间看到《Video Google: A Text Retrieval Approach to Object Matching in Videos》这篇文章，虽然是2003年的文章，但引用率还是挺高的，对我这个图像检索方面一穷二白的人来说，文章中的方法挺新颖的，因此写了这篇博文记录一下对这篇文章的个人理解。

Video Google这个产品Google早在2009年的时候就不做了，开始将精力投入到youtube中，因此现在也不能再去体验Video Google这个功能了。其实本篇文章主要研究的内容就是如何将文字检索的一些方法移植到视频搜索中，实际上也就是对视频中的每一帧图像进行搜索。文中简单介绍了文字检索的相关步骤，主要分以下几步：

1. 对文档分词

2. 每个词都用它们的词根代替，如walking、walks、walk都用walk表示

3. 用stop list删除一些常见的词，如a an the等一些常出现的词

4. 一篇文章的表示法，即以每个字出现的频率组成一个向量来表示

5. 对于每个字其实都有一个某种形式的weight，例如Google利用PageRank的方式来做weighting

6. 在后台用上述方法把上面的文档处理后表示成一个向量，然后生成一个倒排文档(inverted file)

当然了，Google的文字检索也不可能这么简单，这里只是简单介绍了文字检索的主要步骤。将文字检索的技术运用到视频检索中，最主要的问题是我们如何用一些“词”去描述视频中的一帧图像。这里作者提出了“visual words”的概念，文章中作者用两种不同的区域来作为一帧图像的visual words，一种是Shaped Adapted(SA)，一种是Maximally Stable(MS)。作者并没有对如何提取这两种区域作详细的描述，通过文章中的附图可以看出，第一种SA是以图像中的角点、拐点（corner）为基础提取出相应的椭圆区域；MS是通过对最大稳定极值区域（MSER）的提取得到椭圆区域表示。然后对提取出的这两种区域用sift特征描述子这篇文章是2003年发表的，当初有关sift的多尺度极值点的特征检测还没有像今天这样得到广泛关注，实际上对于SA区域我们完全可以直接用sift特征，因为有的图像搜索文献中也有提到直接用sift特征作为检索特征的，并且有些小道消息Google图像搜索中也用到了sift特征作为描述图像的一种特征，另外也用到了一些颜色的特征作为检索特征，至于还用到其它一些来描述图像就不得而知了。

扯远了，还是回到这篇文章上来吧。刚才说到了文章中用两种区域作为一帧图像的visual words，当然要成为visual words还要对区域进行特征描述，这里作者倒是想到用sift的特征描述方法了，文章中也提到了所选的特征和特征描述方式满足仿射不变性，有利于区域不同尺度不同视角的匹配。另外，这里的区域提取都是在灰度图中实现的，并没有用到图像的色彩信息，并且一帧图像中提取出的区域要和相邻几帧进行比较，若该区域只出现在当前一帧图像上，就会把该区域当成噪声或不稳定区域舍去。有了visual words之后便要构造相应的字典（visual vocabulary），这里是将文章中提到的两部视频按48个镜头大约10000帧的图像进行visual words的提取，然后将提取到的visual words用K-means的方法进行聚类，得到一副词典，这样每帧图像我们就可以像文字检索中的一篇文档那样，用词典中相关词的频率来描述。这里作者提到了关于SA和MS区域两种描述子的聚类过程是相互独立的。至于聚类过程中聚类中心的选取、K值的选择、两种区域的比例，文章中一句话带过，这些都是经过多次试验得到的经验值（貌似很多文献中相关参数的选择都会这么一笔带过）。后面又将文字检索中加权的思想引入到视频检索中来，也就是说对一些经常出现的visual words赋予较小的权重，对于一些不经常出现或者类似“关键字”之类的赋予一个较大的权值，这个就不是这篇文章的重点了。

论文的最后给出了一些实验结果，说明了论文中选取两种区域构造的visual words是相互独立相互补充的，两种visual words合起来的威力大于单一的visual words。另外在解释实验中有些图像帧的检索效果不好时，作者解释是因为在那些帧中visual words偏少造成的（figure 4），但附图中的visual words感觉并不是太少，只是两幅图中匹配上的区域太少而已。文章的第六部分实验中又将文字检索中的stop list和spatial consistency技术运用到目标检测中，这一部分没有难以理解的地方，通过后面的图片描述就可以直观明了地看出两种技术在匹配中的作用。

其实整篇文章中并没有什么创新的算法，本文创新的地方在于将旧的方法用到了新的领域，这也是现在很多论文提倡了一种创新方式。这篇文章有助于我们进一步的理解视频搜索和图像搜索的相关步骤，对于我这种门外汉来说也起到了科学普及的作用。这里只是我个人对这篇文章的理解，如果有理解不对或者您有补充的地方，望各位大侠不吝赐教。