论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

最新推荐文章于 2024-07-09 08:44:41 发布

开放知识图谱

最新推荐文章于 2024-07-09 08:44:41 发布

阅读量2.1k

点赞数

文章标签：人工智能机器学习 python 深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/121585980

版权

笔记整理: 谭亦鸣，东南大学博士生

来源：NAACL’21

链接：https://aclanthology.org/2021.naacl-main.153.pdf

论文提出了一种新的知识图谱问答数据集命名为FVSQA，这是一种语音视觉知识问答类型的任务，即问题形式为音频，问题基于一个图片提出，答案是来自知识图谱的事实。FVSQA包含三个子任务：

1.基于语音转文本的问答；2.（不转文本情况下的）端到端模型；3.跨语言任务，即问题的音频语言与知识图谱语言不同情况下的问答。

背景与动机

基于事实的视觉问答（FVQA）要求问答系统依据针对图像提出的问题，从给定的知识图谱中找到对应的事实答案。该任务旨在使模型模仿人类回答视觉问题时如何利用背景知识。但是作者认为现有的问答任务未考虑到（多语言）音频接口的情况，考虑到目前逐渐成熟的语音识别系统，直接使用语音提问，构建一个直接使用语音信号的端到端问答模型是指的考虑的研究方向。

贡献

最低0.47元/天解锁文章

开放知识图谱

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

笔记整理: 谭亦鸣，东南大学博士生来源：NAACL’21链接：https://aclanthology.org/2021.naacl-main.153.pdf论文提出了一种新的知识图谱问答...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。