题目:Query-Oriented Micro-Video Summarization
面向查询的微视频总结
作者:M. Jia; Y. Wei; X. Song; T. Sun; M. Zhang; L. Nie
摘要
面向查询的微视频摘要任务旨在生成一个简洁的句子,具有以下两个属性:(a) 总结微视频的主要语义;(b) 以搜索查询的形式表达,以便于检索。尽管在检索领域具有巨大的应用价值,但这个方向几乎没有被探索过。之前的摘要研究主要集中在传统长视频的内容摘要。直接应用这些研究由于微视频和查询的独特特征(在短时间内的多样实体和复杂场景、模态间的语义差距以及不同表达方式的各种查询)容易获得不满意的结果。为了特定地适应这些特征,我们提出了一种面向查询的微视频摘要模型,称为QMS。它采用基于编码器-解码器的Transformer架构作为骨架。多模态(视觉和文本)信号通过两个模态特定的编码器获得它们的表示,然后通过实体感知表示学习模块来识别和突出关键实体信息。在优化方面,针对模态之间的巨大语义差距,我们根据它们的语义相关性分配不同的置信度分数。此外,我们开发了一种新策略,从各种表达的查询集中采样有效的目标查询。广泛的实验表明,
订阅专栏 解锁全文
1090

被折叠的 条评论
为什么被折叠?



