论文名称:Video Question Answering on Screencast Tutorials
推荐理由:本文介绍了一种关于录屏教程的新颖视频答题任务(video question answering task)。作者介绍了一个数据集,它包括某软件的教程视频中的问题、答案和上下文三元组(context triples)。与其他视频答题工作不同的是,作者数据集中的所有答案都是基于领域知识库的。该工作设计了一种单次识别算法来提取视觉线索,这有助于提高视频答题的性能。同时,作者还根据数据集中视频语境的不同方面提出了几种基线神经网络架构。实验结果表明,作者提出的模型通过结合多模态语境( multi-modal contexts)和领域知识(domain knowledge),显著提高了答题性能。
论文链接:https://www.aminer.cn/pub/5ef96b048806af6ef2772065/?conf=ijcai2020
会议链接:https://www.aminer.cn/conf/ijcai2020
订阅了解更多论文信息,定制您的个人科研动态信息流:https://www.aminer.cn/user/notification
#论文# #IJCAI 2020# #AMiner#