徐童：视频人物社交关系图生成与应用

最新推荐文章于 2024-10-13 15:54:09 发布

DataFunTalk

最新推荐文章于 2024-10-13 15:54:09 发布

阅读量439

点赞数

文章标签：大数据人工智能 DatafunTalk

本文链接：https://blog.csdn.net/DataFun_Hoh/article/details/124897813

版权

该文探讨了现有视频理解技术的局限性，强调人物社交关系在视频语义理解中的重要性。介绍了如何利用图卷积网络和多模态信息生成帧级别和片段级别的社交关系图，并展示了关系图在视频人物检索中的应用。研究表明，结合社交关系可以提高人物识别的准确性。

摘要由CSDN通过智能技术生成

file

导读： 在线社交媒体平台的发展，带来了细粒度检索、视频语义摘要等媒体智能服务的巨大需求。现有的视频理解技术缺乏深入的语义线索，结合视频中人物的社交关系才能更完整、准确地理解剧情，从而提升用户体验，支撑智能应用。这里主要介绍我们将动态分析和图机器学习相结合，围绕视频中的人物社交关系网络所开展的两个最新的工作。主要内容包括：

问题背景
关系图生成
关系图应用
未来展望

01 问题背景

1. 现有视频理解技术缺乏深入语义线索

file

现有的视频理解技术更多地着眼于描述画面里人物的行为、动作、身份，很少关注更深层的语义信息。例如上图中让子弹飞的例子，现有算法理解的是“两个人坐在一起，一个人表情愤怒，另一个人表情开心”，但由于缺乏深入的语义线索，不能解释这两个人为什么表情各异地坐在一起，对剧情的理解其实就不完整，不准确。在视频理解当中，除了浅层的“所得即所见”之外，还需要更多深层的“所得不可见”的语义挖掘。在多种多样的语义线索中间，人物社交关系是最核心的线索。

2. 视频人物社交关系相关研究

file

在2015年前后就已经有了图像社交关系识别的研究，其中经典的工作包括PIPA（Zhang et al. 2015）、PISC（Li et al. 2017），主要解决的问题是在静态图片上理解图片中两个人物之间的关系。但由于静态图片本身包含的信息量较少，无法描绘完整的动作和互动行为。到2018年-2019年，社交关系识别任务逐渐推广到了视频，产生了MovieGraphs、ViSR等广为人知的数据集。相比于图片来说，视频包含时序信息、人物完整的动作等，信息更加丰富，建模工作相对来说也更加充实。接下来介绍两篇相关的工作。

file