最新综述:从多个角度介绍多模态对话信息搜索(MMCIS)任务

©PaperWeekly 原创 · 作者 | 金金

单位 | 阿里巴巴研究实习生

研究方向 | 推荐系统

简介

交互性是信息搜索任务的核心,人类对话是最自然的交流工具。几十年来,这一直激励研究人员和从业者想象与信息搜索系统的对话交互。自动语音识别(ASR)和用于语言理解和生成的深度学习模型的最新进展,包括智能手机等设备的普及,引起了人们对对话式信息检索(CIS)领域的日益浓厚的兴趣。

尽管以前的工作主要关注对话环境中的单模态交互和信息搜索,但众所周知,人类对话是多模态的。我们不仅通过语言交流,而且还使用多种方式进行交流。尽管如此,信息搜索仍然主要通过视觉渠道(即键入的查询和搜索结果列表)进行。这些特性要求开发 CIS 系统,提供多模式项目并通过多种模式的渠道与用户交互。

本文从多个角度介绍多模态对话信息搜索(MMCIS)任务。首先给出了 MMCIS 的模态类型和定义,并介绍了 MMCIS 的优点以及支持的场景,最后提到了存在的研究挑战以及现有平台。

论文标题:

Towards Multi-Modal Conversational Information Seeking

论文链接:

https://www.johannetrippas.com/papers/deldjoo2021towards.pdf

多模态系统中的模态类型

我们首先从用户和系统结合的视角给出多模态对话式信息检索的流程,该过程显示所涉及的不同组件/功能:

  • 用户通过激活肌肉(例如声带、手)来输入人类动作,对应于几种人类生物/感官模式。

  • 用户使用多个物理输入设备(键盘、鼠标)或更高级的设备(例如运动或眼睛注视跟踪传感器)与计算机进行通信。这些输入设备对应不同的交互通道。

  • 机器输入设备感测到的信息以音频、文本、图像、视频或演示媒体的形式产生不同的数据表示。这些数据在不同的语义级别(即低级别、语义)上提供了对用户意图的不同理解级别。音频、图像和文本对应不同的处理方式。

  • 计算机通过应用各种计算机视觉、NLP、音频分析和数据融合来处理来自构成模态的信息,再次对应于处理模态。

  • 计算机通过适当的设备(例如,屏幕、扬声器)输出消息。计算机可以发送统计原始数据(例如,静态图像、音频文件或视频剪辑)或从抽象表示动态生成的数据(例如文本、图形或语音合成的生成)。

  • 最终,系统输出会刺激多种用户感官(例如,视觉、听觉)。

下表提供了不同交互渠道的示例列表,涉及处理和演示模式的模态。

MMCIS定义

上一部分介绍了多模态系统中的模态类型。然而,当涉及到 MMCIS 系统时,多模态变得更加复杂,这主要是由于 MMCIS 系统的多轮和信息访问性质。因此,鉴于前面介绍的多模态基础,将 MMCIS 三个维度定义如下:

  • 对话处理方式(C)

  • 用户系统交互中的多模态(I)

  • 处理和访问信息项的多模态 (D)

因此,每个 MMCIS 系统中的多模态可以正式表示为:

维度一:对话中的处理方式(C)

我们用

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值