徐童:视频人物社交关系图生成与应用

该文探讨了现有视频理解技术的局限性,强调人物社交关系在视频语义理解中的重要性。介绍了如何利用图卷积网络和多模态信息生成帧级别和片段级别的社交关系图,并展示了关系图在视频人物检索中的应用。研究表明,结合社交关系可以提高人物识别的准确性。
摘要由CSDN通过智能技术生成

file


导读: 在线社交媒体平台的发展,带来了细粒度检索、视频语义摘要等媒体智能服务的巨大需求。现有的视频理解技术缺乏深入的语义线索,结合视频中人物的社交关系才能更完整、准确地理解剧情,从而提升用户体验,支撑智能应用。这里主要介绍我们将动态分析和图机器学习相结合,围绕视频中的人物社交关系网络所开展的两个最新的工作。主要内容包括:

  • 问题背景
  • 关系图生成
  • 关系图应用
  • 未来展望

--

01 问题背景

** 1. 现有视频理解技术缺乏深入语义线索**

file

现有的视频理解技术更多地着眼于描述画面里人物的行为、动作、身份,很少关注更深层的语义信息。例如上图中让子弹飞的例子,现有算法理解的是“两个人坐在一起,一个人表情愤怒,另一个人表情开心”,但由于缺乏深入的语义线索,不能解释这两个人为什么表情各异地坐在一起,对剧情的理解其实就不完整,不准确。在视频理解当中,除了浅层的“所得即所见”之外,还需要更多深层的“所得不可见”的语义挖掘。在多种多样的语义线索中间,人物社交关系是最核心的线索。

2. 视频人物社交关系相关研究

file

在2015年前后就已经有了图像社交关系识别的研究,其中经典的工作包括PIPA(Zhang et al. 2015)、PISC(Li et al. 2017),主要解决的问题是在静态图片上理解图片中两个人物之间的关系。但由于静态图片本身包含的信息量较少,无法描绘完整的动作和互动行为。到2018年-2019年,社交关系识别任务逐渐推广到了视频,产生了MovieGraphs、ViSR等广为人知的数据集。相比于图片来说,视频包含时序信息、人物完整的动作等,信息更加丰富,建模工作相对来说也更加充实。接下来介绍两篇相关的工作。

file

CVPR 2019的一个工作提出了MSTR框架,通过整合视频中的时间域和空间域的信息,来帮助我们理解人物之间的关系。具体来说,如模型框架图中间部分所示,MSTR采用了三个图结构,分别是针对同一个人的 I

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值