MovieNet 数据集详解

0. 前言

  • 相关资料
  • 一句话总结:基于电影的视频理解数据集,包含人物bbox/id、场景边界、每个场景的地点/行为标签等。
  • 获取:官网直接下载,没有任何难度。
  • 一句话总结:基于电影的视频理解数据集,包括人物bbox/id、镜头类型、场景的地点与行为标签等

1. 基本情况

  • 如何拆分一步电影
    • 电影结构:frame -> shot -> thread -> scene -> movie
    • 我非常不专业的理解:
      • frame:没啥好说的,图像帧
      • shot:镜头,我的理解是一个摄像机连续拍摄得到的视频片段。
        • Shot is a series of frames that runs for an uninterrupted period of time. It is also the minimal visual unit of a movie. A movie would usually contains hundreds of shots.
      • scene:场景,我的理解是在一个地方拍摄的、由若干镜头组成的视频片段。
        • Scene is a sequence of continued shots that are semantically related. Usually a scene would tell about one event in the movie. A movie would contains tens of scenes.
      • thread:这个真没明白是啥意思。
        • Thread shows the pattern of the shot arrangement in a scene. But note that not all scenes would contain threads.
        • Take a typical dialog scene as an example. Suppose there are two persons A and B in the dialog scene, they would be alternately shown, the pattern of which can be represented as ABABAB…". So there are two threads in this dialog scene, namely A and B. To capture the hierarchical structure of a movie is important for movie understanding.
  • 提供的标签类别
    • 人物标签:
      • 手工标注了300多电影758k张图片中1.3M个人物bbox
      • 标注了573电影中的人物身份标签。对于没有手工bbox的电影,使用SOTA person detector来检测。为了减少工作量,只关注IMDb中该电影前10的演员。最终得到763k属于3087个credited cast的样本,以及364k个其他样本。
    • 场景边界:
      • 电影场景时间划分。
      • 共有42k个场景。
    • 地点/行为标签
      • 手工对每个场景标注行为和地点。
      • 每个场景对应多个place标签。
      • 对于行为标签,先将场景划分为sub-clips,然后对每个sub-clip标注多个行为标签。
      • 为了使得信息更多样、包含更多信息,我们鼓励标注者创建更多标签,而那些对于故事理解没有太大帮助的行为(如站立、说话)都被去掉了。最终确定了80类行为标签和90类地点标签。
      • 最终得到19.6K地点标签、41.3k行为片段以及45k行为标签。
    • Description Alignment
      • 这个还真不知道是啥意思,猜测是视频摘要相关?
      • 请参考 官方文档
    • 影片类型(Cinematic Style)
      • 有两个维度的数据
      • view scale:long shot, full shot, medium shot, close-up shot and extreme close-up shot
      • camera movement:static shot, pans and tilts shot, zoom in and zoom out
  • 提供的数据
    • id:即电影在IMDb中的id,还提供了TMDb ID和Douban ID。
    • Movie:电影本身,提供了1100部电影720P,长宽16:9,可能有黑边。由于版权原因,只放出关键帧。相邻帧非常类似,只有关键帧就够了。为了避免版权问题,只概统16K Hz采样频率和512 window length的数据。
    • Trailer:预告片,即商业广告,共有33k不同的预告片,也有关键帧信息和对应的声音特征。
    • Subtitle,即字幕,内嵌英文字幕或YIFY上下载的。
    • Script:剧本。
    • Synopsis:剧情简介,是观影者写的,从IMDb上获取的。
    • Meta data:元数据

2. 详情

2.1. 标签详解

  • 所有标签都是json文件,文件名为IMDb的电影id。

  • 整个标签是一个字典,包含以下几个key

    • imdb_id:即IMDb电影编号
    • cast:即人相关标签,包括bbox以及对应的pid(即任务编号)
    • scene:场景信息,包括每个场景的起始帧、起始镜头、地点标签以及行为标签
    • story:我也不知道该怎么翻译这个,里面有编号、起始镜头、起始帧、时间、consistency(不知道是啥)、文字描述、字幕
    • cinematic_style:镜头分类,即每个镜头的scale和movement,还有预告片信息。
  • 标签举例如下

{
  "imdb_id": "tt1210166",
  "cast": [
    {
      "id": "tt1210166_000001",
      "frame_idx": null,
      "resolution": [
        1280,
        694
      ],
      "shot_idx": 1,
      "img_idx": 0,
      "body": {
        "type": "detected",
        "bbox": [
          22,
          27,
          1148,
          675
        ]
      },
      "pid": "others",
      "possible_pids": [
        "others"
      ]
    },
    ...
  ],
  "scene": [
    {
      "id": "tt1210166_0000",
      "shot": [
        0,
        1
      ],
      "frame": [
        0,
        841
      ],
      "place_tag": null,
      "action_tag": null
    },
    ...
  ],
  "story": [
    {
      "id": "tt1210166_0000",
      "shot": [
        60,
        424
      ],
      "frame": [
        6257,
        44851
      ],
      "duration": [
        260.97997833333335,
        1870.6211273333333
      ],
      "consistency": 0.963081028938084,
      "description": "Oakland Athletics general manager Billy Beane is upset by his team's loss to the New York Yankees in the 2001 postseason ...",
      "subtitle": [
        {
          "shot": 60,
          "duration": [
            260.26,
            262.51225
          ],
          "sentences": [
            "You gotta give the Yankees--"
          ]
        },
        ...
      ]
    },
    ...
  ],
  "cinematic_style": {
    "movie": [
      {
        "shot": 1,
        "scale": "closeup",
        "movement": "static"
      },
      {
        "shot": 2,
        "scale": "full",
        "movement": "static"
      },
      {
        "shot": 3,
        "scale": "closeup",
        "movement": "moving"
      },
      ...
    ],
    "trailer": null
  }
}

2.2. 工具包介绍

  • 主页在这里,说是有四部分内容,但目前只有其中一种

    • image-20210111232653366
  • 现有工具很多,起始就是一些现有库的时候

    • image-20210111232718604
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值