SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统

最新推荐文章于 2024-05-21 02:01:16 发布

PaperWeekly

最新推荐文章于 2024-05-21 02:01:16 发布

阅读量487

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/100789921

版权

本文提出了一种用户注意力指导的多模态对话系统，用于任务型对话，尤其是在零售业等场景中提高顾客满意度。系统通过多模态编码器和解码器处理文本和图像信息，结合用户注意力，实现层次化的产品推荐。实验结果显示，该模型在文本生成和图像选择上表现出优越性能。

摘要由CSDN通过智能技术生成

640

作者丨张琨

学校丨中国科学技术大学博士生

研究方向丨自然语言处理

640?wx_fmt=png

640?wx_fmt=png

论文动机

对话系统一直是自然语言理解领域一个重要的研究内容，它可以使人们更便捷的与机器进行交互，多模态的对话系统就是其中非常重要的一个研究方向。

以下图的零售业对话为例，首先多模态对话能够带给顾客更加详细直观的建议，通过加入图片信息，顾客能够更加直接的表达出自己的观点；同时，通过顾客的关注点，例如颜色，样式等，对话机器人能够更清楚的获取顾客的偏好，从而最终为顾客提供符合其要求的推荐内容，提升顾客的满意度。

基于这样的一个想法，本文作者针对任务型对话系统，提出了用户注意力指导的多模态对话系统。

640?wx_fmt=png

模型

具体而言，在任务型对话系统中，作者希望利用用户的注意力信息实现对产品的层次化选择，在每一个不同的层次关注到不同的产品特点，通过细化的区分实现精准的产品推荐。模型的整体框架图如下：

640?wx_fmt=png

该框架主要完成两个任务：文本回复生成与图像回复选择。多模态编码器和解码器用于编解码多模态的内容信息，同时由一个高层次的 RNN 控制整个对话进程。接下来，将详细讲述每个部分的相关细节。

多模态编码器

640?wx_fmt=png

该模块主要用于编码文本信息和图像信息，生成情境感知的语义内容表示。针对文本内容，考虑到不同的文本对最终的语义表达贡献不同，作者在这里使用了基于 CNN 的注意力机制，具体由以下公式实现：

640?wx_fmt=jpeg

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统

作者丨张琨学校丨中国科学技术大学博士生研究方向丨自然语言处理论文动机对话系统一直是自然语言理解领域一个重要的研究内容，它可以使人们更便捷的与机器进行交互，多模态的对话系统...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。