摘要
面向任务的对话系统在医疗卫生领域中越来越普遍出现,并且以各种各样的结构和目标为特征。尽管这些系统从非技术的角度在医学界进行了评估,但从严格的计算角度来看,对系统的评价迄今为止是明显缺乏的。因此,许多重要的面向医疗卫生对话系统的实现细节仍然有限或不具体,从而减慢了该领域的创新节奏。为了填补这一空白,我们研究了来自著名的计算机科学,自然语言处理和人工智能会议的4070篇论文,并确定了70篇用于医疗卫生的面向任务对话系统实现的论文。我们对这些论文进行了全面的技术审查,并介绍了我们的关键发现,包括明显的差别和对应的建议。
1.介绍
对话系统已经在许多人的日常生活中都出现过,例如充当虚拟助手,客户服务代理甚至同伴。尽管某些系统被设计在开放领域(聊天机器人)中进行非结构化对话,但其他系统(面向任务的对话系统)可以帮助用户完成特定领域中的任务。面向任务的对话系统可能在健康和医疗卫生中发挥重要作用,并且已被越来越多的患者,看护人和临床医生所采用。尽管如此,在医疗卫生领域中,对话系统的前沿或基础工作和原型或部署对话代理之间仍然存在转化差距。这限制了将科学研究扩散到实际系统,从而约束了基础研究所带来的潜在好处。
我们通过对面向任务的医疗对话系统进行全面,科学严格的分析来缩小这一差距。我们的基本目标是(a)探索目前这些系统是如何使用的,以及(b)总结其特征,缺点和后续优化点。重要的是,我们试图通过从计算的角度广泛研究所包含的系统来解决先前系统评价的局限性。我们的主要贡献如下:
- 我们系统地搜索来自著名技术会议的4070篇论文,并确定符合我们标准的70篇论文。
- 我们从许多因素来分析这些系统,包括系统目标,语言,体系结构,模式,设备类型和评估范式等。
- 我们确定了所有系统的共同局限性,包括对结构的不完整探索,可复现问题,道德和隐私问题以及对可用性或参与度的调查。我们将这些问题作为未来工作的方向而提供了实用的建议。
从长远来看,我们希望在这项调查中确定的差距和机会可以刺激面向任务的医疗对话系统的更快进步。我们还希望该调查为NLP研究人员和从业人员提供了一个有用的起点以及对先前工作的总结,从而促进进入这关键的研究应用领域。
2.相关工作
医疗卫生的对话系统一直是医疗和临床相关研究最近进行关注的重点。这些研究对部署系统的实际应用进行了调查,而不是从技术角度检查其设计和实现。相比之下,从AI和NLP研究和实践角度检查这些系统的研究受到限制。Zhang et al. (2020) and Chen et al. (2017) 对通用领域任务对话系统的最新进展进行了调查。尽管它们为子领域提供了出色的整体描述,但他们并未深入研究医疗机构特别感兴趣的各个方面,从而限制了他们对受众的可用性。
Vaidyam et al. (2019),Laranjo et al. (2018) 和 Kearns et al. (2019) 对部署在心理健康或通用医疗中的对话系统进行了系统评价。Vaidyam et al. (2019) 检查了10篇文章,Laranjo et al. (2018)和Kearns et al. (2019) 分别检查了17篇文章和46篇文章。所有调查均为医疗受众编写,并专注于医疗问题,其涵盖了AI,NLP或一般计算机科学场所的文章。
Montenegro et al. (2019) 和 Tudor Car et al. (2020) 最近分别审查了40篇和47篇文章,涵盖了医疗领域中的对话代理。这两个调查是最接近我们的调查,但在侧重方向有所不同。首先,我们的重点是关注特定的对话代理:面向任务的对话系统。Montenegro et al. (2019) and Tudor Car et al. (2020) 的调查使用更广泛的搜索范围,以提供广泛的技术深度。我们还审查了更多的论文(70篇文章),然后使用更彻底的分类法对其进行筛选,作为分析的一部分。我们认为与先前调查不同的方面包括调查了对话系统结构,对话管理架构,系统评估方法以及开发或评估系统时使用的数据集。
3.Search Criteria and Screening
4.Ontology
4.1 Domain of Research
4.2 System Objective
4.3 Target Audience
4.4 Language
5.System Architecture
5.1 General Architecture
5.2 Dialogue Management Architecture
6.System Design
6.1 Modality
6.2 Device
7.Dataset
8. System Evaluation
9.Discussion
本节,我们将确定这些被调查系统的局限性,并为在未来工作中解决这些缺陷提供建议。
9.1 Incomplete Exploration of System Design
我们观察到这些被调查系统的系统架构多样性很差,大多数都使用pipeline架构(83%)。这种结构的同质性限制了我们对该领域中具有良好设计实践的理解。最近的研究表明,给定足够多的高质量数据,面向任务的对话系统的端到端体系结构可以与管道体系结构竞争。但是,众所周知,在许多医疗子领域中,在端到端系统中利用的外部知识源通常是很复杂的。此外,对于医疗应用领域,可解释性是主要关注的点,但是在端到端系统中通常会混淆这种可解释性。最后,这些系统的用户可能会寻求有关敏感主题的指导,这可能会加剧隐私问题。在大型,低质量(未被精心挑选)的数据集中训练的任何系统可能学习到不愉快的行为并扩大训练数据中的偏见,从而产生有害后果。我们建议对结构设计进行进一步的实验,并与开发高质量的医疗对话数据集同时进行,迄今为止,这些数据集仍然很少。
我们注意到,大多系统(33%)仅允许基于文本的交互。但是,通过语音与对话系统交谈是和个体建立良好舒适性的更好的方式。基于文本的系统也更可能会违反隐私注意事项。因此,我们建议研究人员在适用和适当的情况下进一步探索多模态或语音对话系统。
许多被调查的系统也在手机上部署。尽管基于移动系统的优势是大多数用户随时可以使用,但Lee et al. (2018) 发现,当需要长期与移动健康应用程序互动时,用户对该应用的使用量会逐渐减少。Tudor Car et al. (2020) 提出在基于移动系统中克服此限制的一种方法是将它们直接嵌入到用户已经习惯互动的应用程序或平台中(例如,Facebook Messenger)。这种传播方法可能有助于更轻松,更持久在个人日常生活中使用。
最后,我们发现大多数系统仅针对患者(84%),对针对临床医生和护理人员的系统的研究仍然有限。我们建议进一步探索针对这些关键受众的系统。这可能为理解,诊断和治疗患者的健康问题提供广泛的,高影响力的支持。
9.2 Replicability Concerns
数据可访问的限制降低了对公共卫生研究的能力,这种局限性可能部分对管道与端到端结构的失衡负责(第9.1节)。只有一小部分被调查的论文(29%)讨论了系统开发过程中使用的数据的数量或特征。缺乏数据透明度会阻碍科学进步,并严重阻碍了可复现性。我们呼吁研究人员在管理协议允许的情况下发布数据,并在阻止数据开源的情况下允许描述统计数据。我们还将高质量公开数据集的开发视为转化对话系统研究(第9.1节)的重要边界。
许多被调查的论文还缺乏重要的实现细节,例如评估方法(34%)。这样组织了研究界更广泛地复现开发系统和概括研究结果。因此需要建立了良好的准则,并在NLP社区中越来越多地被遵守,以防止可重现问题出现。
9.3 Potential Ethical and Privacy Issues
现实中的医学数据促进了高质量医疗应用的发展,但是保护数据贡献者的权利和隐私对于确保道德研究行为至关重要,对版权保护的适当处理也是如此。我们筛选了所有有关隐私和道德问题的论文,并观察到只有27%的被调查论文关注在其系统设计中的参与者或患者的隐私。此外,只有14%的被调查论文记录了机构审查委员会(或IRB等效)批准的任何证据。
涉及医疗对话系统的研究无疑是以人为本的,因此在这种系统的设计中缺乏道德监督是一个严重的关注点。尽管进入此领域的技术研究人员可能不熟悉相关主题的研究和协议,但我们敦促所有对话系统研究人员提交其实验设计和协议,以供适当的外部审查委员会进行审查。我们还要求研究人员根据《 ACM道德规范》制定的指南,考虑使用或滥用系统的潜在危害。
9.4 Room for Increased Language Diversity
我们观察到大多数系统(56%)仅针对英语使用人群。这为低资源语种开发多语言对话系统带来了各种挑战,但是解决此问题可能会非英语使用人群带来巨大的好处。 Duggenpudi et al. (2019), Rahman et al. (2019) 和 Grover et al. (2009) 开发的系统提供了如何实施此类系统的案例示例。
9.5 Minimal Investigation of Usability or User Engagement
最后,调查的论文中有50%以上(37/70)没有对系统可用性或用户体验进行评估。可用性测试可以提高生产率和防御错误,这在医疗任务中至关重要。因此,我们敦促研究社区在设计该领域时考虑和评估可用性。受调查的系统种已经这样做的系统(例如,Wang et al. (2020), Lee et al. (2020b), Wei et al. (2018), or Demasi et al. (2020)提供的案例)。
尽管这是通用领域中的常见目标,但几乎60%的被调查系统并未明确设计以吸引用户。医疗对话系统可能会从此类设计中受益匪浅。为了提高用户满意度和系统性能,我们建议研究社区在设计其面向医疗的对话系统时更有目的地考虑参与度。