文章主要内容和创新点总结 主要内容 研究背景 视频大语言模型(Video-LLMs)在时间敏感任务(如时刻检索、密集视频字幕、接地视频问答)中面临离散时间表示和时间感知数据集有限的挑战。 现有方法存在三大问题: 文本-数字混合表示(如GroundingGPT)导致分类混淆; 专用时间标记(如Momentor)受长尾分布和时间不连续性影响; 重型时间模块(如InternVideo2.5)增加计算成本且依赖视觉信息重输入。 DisTime框架 核心设计:引入可学习时间标记<TIME_STAMP>,通过**基于分布的时间解码器(Distribution-b