Josef Sivic and Andrew Zisserman,ICCV2003,被引用次数:3836
阅读时间:2015-04-04~05
文章的效果可以在这里看到。传说Video Google这个产品Google早在2009年就不做了,开始将精力投入到youtube中,因此现在也不能再去体验Video Google这个功能了。
文章主要研究的内容是如何将文本检索的一些方法移植到视频搜索中。文中先回顾了文本检索方法:
- documents采用某种分词方法,分割成一个个word;
- 将词根一样的词合并,如walk、walking、walks合并成walk;
- 消除停用词(stop word),即那些特别常见的词,如an、the;
- 将留下的词组织成vocabulary;
- 每个文本表示成一个向量,每个维度上的值为该词在文件中出现的频率;
- 当然,各词的值会有加权,比如采用TF-IDF加权等;
- 在文本检索时,通过计算词频向量,返回向量最接近的文档。
上述步骤可以将词和文档组织成inverted file,能进行高效的检索。
该思路借鉴到视频检索中,概念上的类比见下图,来源:
一、场景匹配
文章先对场景匹配进行了讨论,主要流程为:
- 图像特征提取,SIFT和MSER,并对特征去噪;
- k-means聚类,度量方式为欧式距离,对k-means多次随机初始化,最终使用误差最小的结果;
- 图像向量化,利用TF-IDF加权量化;
- 检索阶段,用cos度量query vector和all document vectors;
视角不变性特征描述
- Shape Adapted,由椭圆中点、大小和形状决定,拉普拉斯局部极值点,这里应该是SIFT;
- Maximally Stable,MSER区域;
文中对比了两种特征,最终发现两种特征合并效果最好。文中有去噪操作,使用Constant Velocity Dynamical model跟踪连续帧的特征区域,三帧内消失的region将被rejected,最终特征值为三帧均值,如果方差矩阵很大会rejected。
构建视角词汇
k-means聚类,文中提到两部视频48个镜头大约10k帧的图像进行visual words提取,大约200k关键点,聚类形成6k个kernel关键点,10k个kernel MSER。
特征量化
TF-IDF加权, ti=nidndlogNni ,