SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统

本文提出了一种用户注意力指导的多模态对话系统,用于任务型对话,尤其是在零售业等场景中提高顾客满意度。系统通过多模态编码器和解码器处理文本和图像信息,结合用户注意力,实现层次化的产品推荐。实验结果显示,该模型在文本生成和图像选择上表现出优越性能。
摘要由CSDN通过智能技术生成

640

作者丨张琨

学校丨中国科学技术大学博士生

研究方向丨自然语言处理


640?wx_fmt=png

640?wx_fmt=png


论文动机

对话系统一直是自然语言理解领域一个重要的研究内容,它可以使人们更便捷的与机器进行交互,多模态的对话系统就是其中非常重要的一个研究方向。

以下图的零售业对话为例,首先多模态对话能够带给顾客更加详细直观的建议,通过加入图片信息,顾客能够更加直接的表达出自己的观点;同时,通过顾客的关注点,例如颜色,样式等,对话机器人能够更清楚的获取顾客的偏好,从而最终为顾客提供符合其要求的推荐内容,提升顾客的满意度。

基于这样的一个想法,本文作者针对任务型对话系统,提出了用户注意力指导的多模态对话系统。

640?wx_fmt=png

模型


具体而言,在任务型对话系统中,作者希望利用用户的注意力信息实现对产品的层次化选择,在每一个不同的层次关注到不同的产品特点,通过细化的区分实现精准的产品推荐。模型的整体框架图如下:


640?wx_fmt=png

该框架主要完成两个任务:文本回复生成与图像回复选择。多模态编码器和解码器用于编解码多模态的内容信息,同时由一个高层次的 RNN 控制整个对话进程。接下来,将详细讲述每个部分的相关细节。


多模态编码器


640?wx_fmt=png

该模块主要用于编码文本信息和图像信息,生成情境感知的语义内容表示。针对文本内容,考虑到不同的文本对最终的语义表达贡献不同,作者在这里使用了基于 CNN 的注意力机制,具体由以下公式实现:

640?wx_fmt=jpeg


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值