斯坦福I2V:一个用于以图搜视频的新闻视频数据集

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010821666/article/details/77947214

Stanford I2V: A News Video Dataset for Query-by-Image Experiments

看论文的小记,留作备用
论文引用(GB/T 7714)
Araujo A, Chaves J, Chen D, et al. Stanford I2V: a news video dataset for query-by-image experiments[C]//Proceedings of the 6th ACM Multimedia Systems Conference. ACM, 2015: 237-242.

  • 斯坦福I2V数据集中有3800个小时的新闻视频,分割成了84000多个视频片段,平均长度为2.7分钟,标注了229个ground-truth搜索结果,下载地址http://purl.stanford.edu/zx935qw7203.
    数据集参数

  • 视觉搜索的四种类型:
    I2I:以图搜图,可用于移动设备的产品图片的搜索
    V2V:以视频搜视频,通常用于在线视频分享网站的版权执法(copyright enforcement)
    V2I:使用头戴相机时实现增强现实?
    I2V:可用于广告监播,使用幻灯片搜索课程视频,组织和搜索个人视频集合或者是视频档案,将相关视频和特定事件做内容关联。

  • 两种搜索场景:
    1.使用一个视频中的完整一帧去搜索其他视频中的帧,找到位置。
    2.使用一帧中的感兴趣区域去搜索其他帧中的感兴趣物体。

  • 数据集的组织形式
    数据集的组织形式
    3800多个小时的视频分割成84000多个视频片段(video clip),平均时长2.7分钟,每个clip都有数十个shot,一个clip对应于一个简单的新闻故事,相当于视频检索领域中的scene场景。

  • 搜索过程

搜索过程

  • Scene Retrieval 场景检索
    将最可能包含搜索图片的clip排序生成一个列表
    使用了基于SCFV的模式,对于数据集中的每一个关键帧(一秒提取一帧)都生成一个全局的signature。在场景检索的过程中,得到一个关键帧的排序列表,从列表中得到前100个场景(场景的相似性分值:组成这个场景的所有关键帧的最高分值)。
  • Temporal Refinement 时间细化
    如果用户对某一个搜索出的clip感兴趣,系统会返回这个clip中包含搜索图片的特定segments。对于每一个ground-truth clip,根据SCFV的signatures找到50个最相近的帧,然后使用特征匹配和RANSAC的方法找到待搜索图像之间的几何模型。

  • 使用了the Internet Archive’s Wayback Machine来获取候选的待搜索图片,网址http://archive.org/web. 选出了两种类型的图片:第一种是标志性的图像?(iconic images),新闻中报导的事件的图片;第二种是《经济学人》和《时代》杂志的封面图片。

  • 数据标注的方法
    这里写图片描述
    蓝色:自动 橙色:人工
    对于数据集中的视频,每秒取一帧,计算SIFT特征和SCFV特征(SCFV:可伸缩的压缩费舍尔向量)
    Feature-based Matching + RANSAC:使用SIFT论文(Lowe大神2004年那篇)中的特征匹配方法,随后用RANSAC的方法对特征匹配对做几何校验。
    Approve matches manually:人工检验匹配结果。
    SCFV-based search:虽然待搜索图片更可能出现在一个特定时间段的新闻视频中,但仍需保证它不会出现在数据集的其他视频中。使用了SCFV全局描述子(SCFV是北大提出的方法,采纳进了MPEG-7 CDVS标准中)。
    Select matches manually:人工选择匹配结果。
    Annotation of video sequences:略。
    Post-processing:后处理,略。
阅读更多
换一批

没有更多推荐了,返回首页