从镜头到算法：多模态与电影的跨界对话-CSDN博客

主题

创意 v.s. 智能｜电影导演与AI科学家视角下的长视频理解主题圆桌会

前言

随着AI技术的迅猛发展，电影创作与视频理解的边界正日益模糊。NICE组织将于12月16日晚20:30举办首次圆桌会系列活动。

本次圆桌会将邀请电影导演与计算机视觉科学家展开跨界对话，探讨AI如何在电影叙事与实时直播流的长视频理解中发挥关键作用。电影导演将分享艺术创作的思考，AI科学家则从技术角度探讨电影视频的深层理解、音频描述生成及直播流数据的实时解析。

通过这一跨领域的碰撞与交流，我们希望激发对AI如何推动不同视频领域创新的深刻思考，展望未来创作与观影体验的无限可能。

本次圆桌会还设有开放讨论环节，邀请与会者共同参与，从多个维度探讨电影艺术、视频理解和直播流的相互影响，激发更多创新思维和实践启示。

嘉宾介绍

韩腾达，谷歌DeepMind研究科学家。于牛津大学Visual Geometry Group（VGG）组获得博士学位，师从Andrew Zisserman教授，致力于自我监督学习和视频理解。个人主页：https://tengdahan.github.io/。本次圆桌会将会分享关于电影音频描述（Movie audio description）生成相关工作。

林浩天，剑桥大学电影与荧幕研究硕士，上海交通大学影视系艺术学学士，纪录片导演，摄影师。主要从事电影技术、电影史研究，作品于国际电影节、摄影大赛获各类奖项，曾参与麻省理工学院人工智能电影黑客松活动评审及组织工作。个人主页www.haotianlin.com。

狄尚哲，上海交通大学二年级博士生，主要研究方向是视频理解和多模态学习。本次分享将围绕本人在长视频问答方向的研究展开。长视频中丰富的视觉信息虽然带来了新的机遇，但也显著增加了视频问答模型的训练难度。此外，仅输出答案往往缺乏合理性解释，限制了模型的可解释性和实际应用。为解决这些问题，我们开展了一系列研究，包括：在长视频问答时给出与问题相关的一个或多个视频片段；以及面向长视频流的上下文键值缓存检索方法。个人主页：https://dszdsz.cn/。