笔记整理: 谭亦鸣,东南大学博士生
来源:NAACL’21
链接:https://aclanthology.org/2021.naacl-main.153.pdf
论文提出了一种新的知识图谱问答数据集命名为FVSQA,这是一种语音视觉知识问答类型的任务,即问题形式为音频,问题基于一个图片提出,答案是来自知识图谱的事实。FVSQA包含三个子任务:
1.基于语音转文本的问答;2.(不转文本情况下的)端到端模型;3.跨语言任务,即问题的音频语言与知识图谱语言不同情况下的问答。
背景与动机
基于事实的视觉问答(FVQA)要求问答系统依据针对图像提出的问题,从给定的知识图谱中找到对应的事实答案。该任务旨在使模型模仿人类回答视觉问题时如何利用背景知识。但是作者认为现有的问答任务未考虑到(多语言)音频接口的情况,考虑到目前逐渐成熟的语音识别系统,直接使用语音提问,构建一个直接使用语音信号的端到端问答模型是指的考虑的研究方向。