COLING 2020 | 面向医疗对话的摘要生成

本文提出了一种针对医疗对话的新数据集,并构建了抽取式模型HET,通过识别重要语句生成摘要。研究发现,记忆神经网络能提升识别重要句子的能力,尤其是在提取医生诊断建议方面。该模型在医疗对话场景中表现优越。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

©PaperWeekly 原创 · 作者|李东明

学校|香港中文大学(深圳)本科生

研究方向|文本生成

 

摘要

医疗对话是一类特殊的对话形态,属于任务驱动型的对话场景,通常包含极为关键的病人求诊信息以及医生的诊断过程及建议等。针对医疗对话生成摘要有巨大的实际价值,可以方便总结就诊或咨询过程,形成有效、简洁的核心记录。

然而,针对该场景的摘要生成的侧重点与普通文档不同,医疗对话的摘要生成更注重于几个关键信息,即病人症状描述与医生的治疗意见。该文提出了一个新的医疗对话的摘要生成的数据集,并在此基础上提出了一个抽取式对话摘要生成模型。

  

论文标题:

Summarizing Medical Conversations via Identifying Important Utterances

论文链接:

https://www.aclweb.org/anthology/2020.coling-main.63.pdf

代码链接(含数据集):

https://github.com/cuhksz-nlp/HET-MC

任务与数据集

医疗对话的摘要生成是一种特殊的文本摘要生成,其目的是从患者与医生的对话中提取对话的主要信息并生成对话的摘要以供快速集中的信息整合或者为其他潜在医疗咨询找到相关的内容。与通用领域的对话不同,医患之间的对话往往有单一且明确的目的和内容(患者提出一个医疗相关的问题或症状描述,医生与病人沟通并提供诊断建议)。

因此,与普通的文本摘要生成相比,医疗对话摘要着重于患者的问题与医生的治疗建议,而更少关注其中一些非医疗的信息。通常患者的问题与医生的治疗建议往往都直接出现在对话中,因此医疗对话需要生成的摘要中往往可以在对话过程中找到足够的信息。

为了实施这一研究,文章从知名网络医疗资讯平台爬取源数据(https://www.chunyuyisheng.com/pc/qalist/?page=5#hotqa),并构建了一个包含 4.5 万对话的医疗对话数据集(详见该文 Github 链接),针对的都是中文医疗对话场景。

在这些具体对话中,患者一般先向医生提出问题,医生与患者之间进行多轮对话不断了解病情,同时在了解的过程中不断根据已知的情况提出医疗建议。对话结束后,医生会对患者的问题和医疗建议分别进行总结,以供其他患者参考。

下图展示了一个对话的例子,其中,中文是原始数据,英文部分为对应的翻译。在这个例子中,医疗建议的总结有两种,一种基本上就是把医生回答中的关键句子拼接在一起(SUM2-A),另一种是医生根据情况总结的医疗建议,其中可能会出现对话中没有出现的词语(SUM2-B)。在最终数据集中,一般对话都有 SUM2-A,只有一部分包含 SUM2-B。

由于医疗对话摘要所重点关注的两个内容——患者问题与诊断建议,往往都直接出现在对话当中,且医患对话的摘要需要足够的信息,不难想到使用抽取式的摘要生成方法从对话中识别重要句子并将它们抽取出来,并组合成摘要。

为了可以让模型通过有监督的方法学习哪些待抽取句子是重要的,就需要为对话中每一个句子标注一个重要性的标签,把这些标签视为银标准(silver standard),从而可以利用这些标签来训练抽取式摘要模型。

为此,该文首先针对对话中每一个句子,基于该句子分别与 SUM1 和 SUM2 的 ROUGE-1 分数标注该句子的注重要性。一般地,ROUGE-1 分数越高,表明该句子与 SUM1(或 SUM2)的相似度越高,也因此更有可能成为重要的句子。

因此,该文设置一个阈值,用于判断一个句子对 SUM1 和 SUM2 的重要性。如果一个句子对 SUM1 和 SUM2 的ROUGE-1 分数均高于阈值,那么认为该句子对 ROUGE-1 分数更高的摘要更重要。通过这种方式,该文把对 SUM1 和 SUM2 重要的句子分别标注为 PD 和 DT,并把其它不重要的句子记为 OT。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值