Semi-Supervised Variational Reasoning for Medical Dialogue Generation翻译

本文提出了VRBot，一种端到端的医疗对话生成模型，用于在有限的标注数据下生成准确且解释性强的响应。VRBot利用变分推理方法处理患者状态和医生动作的潜在变量，结合先验和推理网络进行状态和动作的追踪。模型通过上下文编码器、状态追踪器和策略网络进行响应生成，同时考虑对话历史和外部医学知识。实验表明，VRBot在多个数据集上优于现有基线，证明了其在医疗对话生成任务中的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

医疗对话生成旨在提供自动和准确的响应，以帮助医生以高效的方式给出诊断和治疗建议。在医疗对话中，有两个关键特征与响应生成有关：患者状态（例如症状，药物）和医师的行为（例如诊断，治疗）。在医疗方案中，由于高成本和隐私要求，通常不可能获得大规模的人工标注数据。因此，当前的医疗对话生成方法通常不会显式考虑患者状态和医生动作，而是专注于隐式表示。
　　我们为医疗对话生成提出了一种端到端的变分推理方法。为了能够处理有限的标注数据，我们将患者状态和医生动作作为具有类别先验的潜在变量，以分别进行患者状态追踪以及医生策略学习。我们提出了一种变分贝叶斯生成方法，以在患者状态和医师动作上近似后验分布。我们使用有效的随机梯度变分贝叶斯估计器来优化推导的变分下界，其中使用了2阶段collapsed推理方法来减少模型训练期间的偏差。另外，我们提出了一个由动作分类器和两个推理检测器组成的医生策略网络，以增强推理能力。我们在从医疗平台收集的三个数据集上进行实验。实验结果表明，就客观和主观评估指标而言，该提出的方法优于最先进的基线。我们的实验还表明，我们提出的半监督推理方法与医生策略学习的全监督学习基准相当。

1.介绍

　　越来越多的对话框架被用来将人们与信息联系起来，在满足开放领域的信息需求的同时，还要支持高度专业化的垂直领域。我们的重点是在医疗领域中寻求对话信息。在临床治疗期间，对话医学系统可以作为医生的助手，以帮助对患者的需求产生响应，例如，查询症状，诊断并开药或治疗。智能医疗对话系统（MDS）能够减轻医生的工作压力。给定一个对话上下文，先前关于MDS的工作主要集中于生成准确的诊断。几乎没有工作考虑多轮医疗对话生成的任务，通过利用大规模的医学知识来提供适当的医疗响应。
　　有两个在对话系统中与临床决策支持（CDS）相关的关键特征：患者状态（例如，症状，药物等）和医生动作（例如，治疗，诊断等）。这两个特征使MDS比其他知识密集型对话方案更加复杂。与面向任务的对话系统（TDS）类似，可以将医疗对话生成（MDG）过程分解为3个阶段：（1）患者状态追踪（PST）：在编码患者的描述后，MDS将追踪患者的生理状况，即对话上下文中的患者状态；（2）医生策略学习（PPL）：给定患者的状态和话语，MDS会生成医生的动作以嵌入到响应中；（3）医疗响应生成（MRG）：MDS根据检测到的状态和动作以连贯的句子做出反应。
　　图1显示了感染科的一个医疗对话的样例。左侧部分列出了对话过程，而右侧则表示对话期间的患者状态和医生动作。首先，第一轮患者分享了他们的症状，即发烧，食欲不振和咳嗽，以作为患者状态；医生询问患者是否有其他症状，即疲劳，夜汗和干咳，以反映第二轮的医师动作。随着对话的发展，各状态和动作都不同。在最后一轮，医生的动作是开出药物：异烟肼，利福平，吡嗪酰胺，乙胺丁醇。
　　端到端的MDG解决方案的开发面临许多挑战：（1）大多数TDS需要大量的人工标注数据来预测显式的对话状态。在医疗对话中，标注者需要医学专业知识来标注数据。出于隐私原因，大规模人工标注中间状态是有问题的。因此，很少有TDS方法可以直接应用于MRG。（2）现有的MDG方法对领域的语义理解有限，这使得在医学环境中很难产生知识丰富的响应。（3）为了帮助患者或医生了解为什么MDG系统会生成这样的响应，具有指示性和可解释的信息是必不可少的，这是大多数TDS研究所忽略的。
　　为了应对这些挑战，我们提出了VRBot，能够对MRG执行变分推理。受TDS方法的启发，VRBot包含患者状态追踪器和医生策略网络，分别检测患者状态和医生动作。与以前的从大量人工标注的观测变量中进行学习的工作不同，VRBot将患者状态和医生动着视为由变分贝叶斯方法推出的双重潜在变量。我们采用随机梯度变分贝叶斯（SGVB）估计器有效地近似后验推断。为了减轻SGVB估计期间的偏差问题，我们提出了一种2阶段的collapsed推理方法，以迭代地近似状态和动作的后验分布。
　　为了解决响应生成期间语义理解有限的问题，我们采用了如下方法。医生策略网络包括一个动作分类器，将医生的行为分为若干动作类别，以及两个推理组件，分别为上下文推理检测器和图推理检测器，分别通过对话上下文和医学知识图谱来推断显式动作关键字。通过显式的患者状态，医生行动和多跳推理的序列，VRBot能够为其医学对话生成结果提供高度解释性。
　　为了评估VRBot的有效性，我们收集了一个基于医疗知识的对话数据集，KaMed。KaMed包含了60000多个医疗对话，其中具有5628个实体（例如，哮喘和阿托品）。使用KAMED和其他两个MDG基准数据集，我们发现VRBot使用有限的标记数据，就优于MDG的最先进基准。因此，给定大规模未标注的医疗语料，VRBot可以准确地追踪到患者的生理状况，并通过预测适当的治疗和诊断来提供信息丰富和连贯的响应。我们还发现，VRBot与其他MDG基准相比能够提供更可解释的响应生成过程。
　　我们的贡献如下：（1）我们提出了一个名为VRBot的端到端医疗响应生成模型。据我们所知， VRBot是第一个同时将状态和动作作为TDS中的潜在变量建模的框架。（2）我们设计了一个混合策略网络，该网络包含上下文检测器和图检测器，该检测器使VRBot能够同时根据对话信息和外部知识预测医生动作。（3）我们表明，即使有很少或没有人工标注的数据，VRBot也可以显式地跟踪患者状态和医生动作。（4）我们发布了KaMed，这是一个具有外部知识的大规模医学对话数据集。（5）基准数据集的实验表明，VRBot能够比最新的基线产生信息更丰富，更准确和更可解释的响应。

2.相关工作

Medical dialogue systems。MDS的先前方法是基于TDS建模的，同时遵循患者表达其症状的框架。Wei et al. 提出使用强化学习来学习用于自动诊断的对话策略。Lin et al.建立了一个症状图，以建模症状之间的关联，以提高症状诊断的性能。Xu et al.考虑使用强化学习显式地考虑症状和疾病的共现概率。Xia et al.使用互信息奖赏和生成对抗网络改进这项工作。同时，已经探索了各种方法，以提高对医疗对话历史的理解能力，包括症状提取，医疗槽填充和医疗信息提取。 Chen et al.研究用于预测响应实体的预训练模型的性能。Chen et al. 收集一个由数百万对话组成的数据集，但没有显式考虑学习对话管理，因为没有人工标注的标签。
　　目前，还没有工作能从大规模的未标注语料库中显式学习对话策略，从而极大地限制了医疗对话系统的应用。
　　Dialogue state tracking。对话状态追踪对TDS起着重要作用。目前已经提出了基于条件随机场和深度神经网络的方法来跟踪模块化TDS中的状态。最近，端到端的TDS引起了很多关注。对于非面向任务的对话，, Serban et al. 和Chen
et al. 提出具有隐式状态表示的生成方法，这很难区分医学概念。对话状态也被表示为对话上下文中的一系列关键字。Jin et al. 和 Zhang et al. 提出半监督的生成模型以利用未标注的数据来提高状态追踪性能。Liang et al. 提出一个编码器-解码器训练框架MOSS，以整合来自各种中间对话系统模块的有监督信息。MOSS在模型训练期间利用不完整的监督信息。但是，现有的方法无法产生信息丰富的响应，并且无法解决对话agent的语义推理能力。据我们所知，还没有方法同时建模小样本环境下的状态和动作。
　　在MDG场景中，学习医生的动作与状态追踪一样重要。与[17、29、65]相比，我们的模型能够同时推断缺失状态和动作。
　　Knowledge-grounded conversations。基于知识的对话任务（KGC）是根据准确的背景知识来生成响应。该任务可以根据背景知识的格式（即结构化KGC和非结构化的KGC）将其归为两类。前者侧重利用知识三元组或知识图，后者则以段落文本为条件。对于结构化的KGC，Liu et al.利用神经知识扩散模块编码知识三元组以预测相关实体。Liu et al. 增强知识图，以集成到对话上下文中进行开放领域的对话。Tuan et al.评估模型在构造的转移矩阵上使用马尔可夫链来推理多个跳路径的能力，以便模型可以进行零样本更新。Xu et al.将先验的对话转移信息表示为知识图，并学习一个基于图的对话策略，以生成连贯和可控的响应。Lei et al. 构建一个user-item-attribute知识图，并巧妙地将对话策略学习作为图上的路径推理。
　　与大多数从开放领域知识库中选择知识的结构化KGC方法不同，MDG旨在探索使用专业的医学领域知识图，研究从患者状态转移到医生动作的多跳知识路径转移。

3.方法

3.1 问题定义

在这里插入图片描述
　　Medical dialogue systems。给定一个 $T$ 轮对话，医学会话 $d$ 由一系列语句组成，即， $d=\{U_1,R_1,U_2,R_2,...,U_T,R_T\}$ ，其中 $U_t$ 和 $R_t$ 分别是患者描述和虚拟医生的响应。在第 $t$ 轮中，给定患者的语句 $U_t$ 和上一轮医生的响应 $R_{t-1}$ ，对话系统会生成一个响应 $R_t$ 。令 $U_t|$ 作为 $U_t$ 中的单词数，我们定义 $U_t=(U_{t,1},U_{t,2},...,U_{t,|U_t|})$ 作为一个单词序列。完整的词表被定义为 $\mathcal V$ 。 $K$ 表示医学对话系统中的外部知识库，其中 $K$ 中的每个三元组分别表示头实体，关系和尾实体。与[53]相同，我们通过将 $K$ 中具有重叠实体的三元组进行链接来构造一个知识图 $G^{global}$ 。我们假设每个实体都被归类为一个实体类型，其中实体类型有 $E_{type}=\{disease, symptoms, medicines, treatments\}$ 。
　　我们将VRBot视为具有参数 $\theta$ 的模型。给定对话上下文，响应和知识图 $G^{global}$ ，我们旨在最大化VRBot在 $d$ 上的概率分布：
$\prod^T_{t=1}p_{\theta}(R_t|R_{t-1},U_t,G^{global}).\tag{1}$
　　Patient states and physician actions。基于文本跨度的对话状态跟踪器具有结构简单且解释性高的双重优势。因此，在第 $t$ 轮中，我们将文本跨度 $S_t$ （即单词序列）定义为对历史语句及响应进行总结的患者状态（即， $U_1,R_1,,...,R_{t-1},U_t$ )。然后，我们将 $S_t$ 作为在知识库中搜索的约束。与 $S_t$ 类似，我们还使用文本跨度 $A_t$ 代表医生在第 $t$ 轮的动作，其对医生的策略进行了总结，例如诊断，药品或治疗。给定 $S_t$ ， $A_t$ 通过策略学习过程进行预测。因此，MDG中的任务变成了每个轮次对两个连续文本跨度（ $S_t$ 和 $A_t$ ）进行生成的问题。
　　由于文本跨度也有助于提高响应生成的性能，因此每个轮次生成 $S_t$ 和 $A_t$ 是MDG中的关键组件。在本文中，MDG的问题分解为三个连续的步骤：（1）生成状态跨度 $S_t$ ；（2）生成动作跨度 $A_t$ ；（3）生成响应 $R_t$ 。
　　Variational Bayesian generative model。在MDG中，对大量患者的中间状态和医师的动作进行标注是不切实际的。因此，在VRBot中，我们将 $S_t$ 和 $A_t$ 视为贝叶斯生成模型的潜在变量，因此我们将等式1重新定义为：
$\prod^T_{t=1}\sum_{S_t,A_t}p_{\theta_g}(R_t|R_{t-1},U_t,S_t,A_t)\cdot p_{\theta_s}(S_t)\cdot p_{\theta_a}(A_t),\tag{2}$
其中， $p_{\theta_g}(R_t|R_{t-1},U_t,S_t,A_t)$ 通过使用一个相应生成器来计算，并且 $p_{\theta_s}(S_t)$ 和 $p_{\theta_a}(A_t)$ 分别通过一个患者状态追踪器和医生策略网络来估计。
　　VRBot的图形表示如图2所示，其中阴影部分的结点表示观测变量，白色结点表示潜在变量。我们看到两个相邻状态之间存在依赖关系。在时刻 $t$ ， $S_t$ 根据先前的状态 $S_{t-1}$ ，响应 $R_{t-1}$ 和语句 $U_t$ 来得出。随后，使用 $S_t$ ， $R_{t−1}$ ， $U_t$ 和 $G^{global}$ 来推断 $A_t$ 。因此，我们将 $p_{\theta_s}(S_t)$ 和 $p_{\theta_s}(A_t)$ 计算为：
$\begin{array}{cc} p_{\theta_s}(S_t)\triangleq p_{\theta_s}(S_t|S_{t-1},R_{t-1},U_t)(prior~state~tracker),\\ p_{\theta_a}(A_t)\triangleq p_{\theta_a}(A_t|S_t,R_{t-1},U_t,G^{global})(prior~policy~network), \end{array}\tag{3}$
其中 $\theta_s$ 和 $\theta_a$ 是参数，并且在对话开始时，一个固定的初始值被赋予 $S_0$ 。在VRBot中，我们提出了两个prior networks，以估计等式3中的概率分布。最终，我们用参数 $\theta_g$ 从 $p_{\theta_g}(R_t|R_{t-1},U_t,S_t,A_t)$ 得到一个响应 $R_t$ 。
　　为了最大化等式2，我们需要估计后验分布 $p_{\theta}(S_t,A_t|R_t,R_{t-1},U_t,G^{global})$ 。然而，由于其复杂的后验期望估计，准确的后验分布非常难以计算。为了解决这个问题，我们引入了两个推理网络（即 $q_{\phi_s}(S_t)$ 和 $q_{\phi_s}(A_t)$ ），以分别近似 $S_t$ 和 $A_t$ 的后验分布：
$\begin{array}{cc} q_{\phi_s}(S_t)\triangleq q_{\phi_s}(S_t|S_{t-1},R_{t-1},U_t,R_t)(inference~state~tracker),\\ q_{\phi_a}(A_t)\triangleq q_{\phi_a}(A_t|S_t,R_{t-1},U_t,R_t)(inference~policy~network), \end{array}\tag{4}$
其中 $\phi_{s}$ 和 $\phi{a}$ 是推理网络的参数。
　　Evidence lower bound (ELBO)。在第 $t$ 轮中，我们计算ELBO以同时优化先验和推理网络，如下所示：
$\begin{aligned} &log~p_{\theta}(R_t|R_{t-1},U_t,G^{global})\\ &\ge \mathbb E_{q_{\phi_s}(S_{t-1})}\bigg [\mathbb E_{q_{\phi_s}(S_t)\cdot q_{\phi_a}(A_t)}[R_t|R_{t-1},U_t,S_t,A_t]\\ &-KL(q_{\phi_s(S_t)||p_{\theta_s}(S_t)})-KL(q_{\phi_a}(A_t)||p_{\theta_a(A_t)})\bigg ]\\ &=-\mathcal L_{joint}, \end{aligned}\tag{5}$
其中 $\mathbb E(·)$ 是期望，而 $K L (\cdot ∥ \cdot)$ 表示KL散度。为了从 $q_{\phi_s}(S_{t-1})$ 估计等式5，我们首先构建状态 $S^q_{t-1}$ ，该状态是用于估计 $p_{\theta_s}(S_t)$ 和 $q_{\phi_s}(S_t)$ 。然后， $S^p_t$ 从 $p_{\theta_s}(S_t)$ 中获得， $S^q_t$ 从 $q_{\phi_s}(S_t)$ 中获得。我们使用 $S^p_t$ 和 $S^q_t$ 分别估算 $p_{\theta_a}(A_t)$ 和 $p_{\phi_a}(A_t)$ ，并从 $q_{\phi_a}(A_t)$ 得到 $A^q_t$ 。最后， $p_{\theta_g}(R_t|·)$ 会基于 $S^q_t$ 和 $A^q_t$ 生成 $R_t$ 。上述抽样过程如图3所示。
在这里插入图片描述

3.2 Context encoder

在第 $t$ 轮中，我们使用双向门控循环单元（GRU）来讲对话历史 $R_{t−1},U_t)$ 编码为词一级的隐藏矢量列表 $\textbf H_t=(\textbf h_{t,1},...,\textbf h_{t,|R_{t-1}|+|U_t|})$ ：
$\textbf H_t=BiGRU(\textbf h^c_{t-1},\textbf e^{R_{t-1}}_1,\textbf e^{R_{t-1}}_2,...,\textbf e^{R_{t-1}}_{|R_{t-1}|},...,\textbf e^{U_t}_{|U_t|}).\tag{6}$
其中 $R_{t−1}|$ 和 $U_t|$ 分别表示 $R_{t-1}$ 和 $U_t$ 中的单词数， $\textbf e^{R_{t−1}}_i$ 表示 $R_{t-1}$ 中的第 $i$ 个词的嵌入。从第 $(t - 1)$ 轮的隐藏表示 $\textbf h^c_{t-1}$ 初始化，我们使用从 $\textbf H_t$ 中读取的最后一个隐藏状态 $\textbf h_{t,|R_{t-1}|+|U_t|}$ 作为第 $t$ 轮的隐藏表示，即 $\textbf h^c_t$ 。

3.3 Patient state tracker

由于我们将患者状态作为文本跨度，先验和推理状态追踪器均基于编码器-解码器框架。在编码过程中，我们使用GRU编码器编码 $S^q_{t-1}$ 以获得 $\textbf h^{S^q}_{t-1}$ 。然后，我们将 $\textbf h^{S^q}_{t-1}$ 与 $\textbf h^c_t$ 拼接在一起，以在第 $t$ 轮中推断先验状态分布 $p_{\theta_s}(S_t)$ 。在解码过程中，我们首先推断出患者状态的先验分布。我将 $\textbf b^{S^p}_{t,0}=\textbf W^p_s[\textbf h^c_t; \textbf h^{S^q}_{t-1}]$ 作为解码器的初始隐藏表示，其中 $\textbf W^p_s$ 是可学习的参数矩阵， $[\cdot; \cdot]$ 表示矢量拼接。当解码的第 $i$ 个字符时，给定上一个字符嵌入 $\textbf e^{S^p}_{t,i-1}$ ，解码器顺序解码 $S_t$ 以输出 $\textbf b^{S^p}_{t,i}$ ，然后再将 $\textbf b^{S^p}_{t,i}$ 映射到患者状态空间，我们将 $S_t$ 的长度设置为 $∣ S ∣$ ，则 $S_t$ 上的先验分布被计算为：
$p_{\theta_s}(S_t)=\prod^{|S|}_{i=1}softmax(MLP(\textbf b^{S^p}_{t,i})),\tag{7}$
其中MLP是多层感知器。为了近似后验状态分布，推理状态追踪器遵循类似的过程，但还包含了对 $R_t$ 的编码，即 $\textbf h^R_t$ 。GRU解码器被初始化为 $\textbf b^{S^q}_{t,0}=\textbf W^q_s[\textbf h^c_t; \textbf h^{S^q}_{t-1};\textbf h^R_t]$ ，其中 $\textbf W^q_s$ 是一个可学习的参数，它在第 $i$ 个解码步骤中输出 $\textbf b^{S^q}_{t,i}$ 。因此，我们将近似后验分布写为：
$q_{\phi_s}(S_t)=\prod^{|S|}_{i=1}softmax(MLP(\textbf b^{S^q}_{t,i})).\tag{8}$

3.4 Physician policy network

先验和推理策略网络也基于编码器-解码器结构。具体来说，我们将 $A_t$ 表示为一个动作类别 $A^c_t$ 和显式关键词 $A^k_t$ 对，即 $A_t=\{A^c_t,A^k_t\}$ 。其中，我们将 $A^k_t$ 的长度设置为 $∣ A ∣$ 。
　　对于先验策略网络，在编码过程开始，我们使用GRU编码器将 $S^p_t$ 编码为一个向量 $\textbf h^{S^p}_t$ 。此外，外部知识在医生策略网络对患者状态做出响应中是很重要的。由于外部医学知识图 $G^{global}$ 很大（按实体数目统计），因此我们通过知识库检索操作 $\textbf {qsub}$ 从 $G^{global}$ 提取子图 $G^{local}_n$ 。在 $\textbf {qsub}$ 期间，我们将 $S^p_t$ 中的每个实体视为种子节点。从 $S^p_t$ 开始，我们在 $n$ 跳范围内从 $G^{global}$ 中提取所有可访问的节点和边，以获取子图 $G^{local}_n$ 。此外，我们将 $S^p_t$ 中的所有实体都进行链接，以确保连接 $G^{local}_n$ 。
　　为了结合信息传播中的关系类型，我们采用关系图注意网络（RGAT）来表示外部知识图中的每个实体。给定一个图 $G=\{X,Y\}$ ，其包含了关系 $Y$ 和节点 $X$ ，在多轮传播后，RGAT输出特征矩阵 $\textbf G=[\textbf g_1,\textbf g_2,...,\textbf g_X]$ ，其中 $\textbf g_x$ （ $1 \leq x \leq X$ ）是节点 $x$ 的嵌入。我们使用RGAT表示此操作，因此我们有： $\textbf G^{local}_n=RGAT(G^{local}_n)$ 。
　　为了解码输出，我们需要依次推断 $A^c_t$ 和 $A^k_t$ 。我们设计一个动作分类器来推断 $A^c_t$ 。类似于[1]，我们以 $\textbf h^c_t$ 作为query来对 $\textbf G^{local}_n$ 计算注意力向量 $\textbf q_t$ 。顺序地，动作分类器引入 $\textbf q_t$ ，并将医师的动作分为四类，即 $a s k s y m p t o m s$ ， $d i a g n o s i s$ ， $p r e s c r i b e m e d i c i n e$ 和 $c h i t c h a t$ ，如下所示：
$P_{\theta_{a,c}}(A^c_t)=softmax(\textbf W^p_c[\textbf h^{S^p}_t;\textbf h^c_t;\textbf q_t]),\tag{9}$
其中 $\textbf W^p_c$ 是一个可学习的参数。然后我们通过从 $p_{\theta_{a,c}}(A^c_t)$ 中采样来计算动作类别 $A^{c,p}_t$ 。
　　 $A^k_t$ 是基于GRU解码器顺序解码的。为了推断先验概率分布，提出了两个推理检测器（即，上下文检测器和一个图检测器）以在每个解码步骤中将解码器的隐藏表示映射射到动作空间。解码器被初始化为 $\textbf b^{A^{k,p}}_{t,0}=\textbf W^𝑝_𝑘[\textbf h^{S^p}_t;\textbf h^c_t;\textbf e^{A^{c,p}}_t]$ ，其中 $KaTeX parse error: Expected '}', got 'EOF' at end of input: …bf e^{A^{c,p}_t$ 是 $A^{c,p}_t$ 的嵌入。在第 $i$ 个解码步骤，解码器输出 $\textbf b^{A^{k,p}}_{t,i}$ 。上下文检测器和图检测器一起基于 $\textbf b^{A^{k,p}}_{t,i}$ 推断 $A^k_{t,i}$ 。
　　从原始上下文和状态中学习，上下文检测器使用MLP推理 $A^k_{t,i}$ 上的先验分布，如下所示：
$p_{\theta_{a,d}}(A^k_{t,i})=\frac{1}{z_A}exp(MLP([\textbf h^{S^p}_t];\textbf h^c_t;\textbf b^{A^{k,p}}_{t,i})),\tag{10}$
其中 $z_A$ 是与图检测器共享的归一化项。图检测器考虑从 $G^{local}_𝑛$ 中复制实体：
$p_{\theta_{a,g}}(A^k_{t,i})=\frac{1}{z_A}\mathbb I(e_j,A^k_{t,i})\cdot exp(\textbf W_g[\textbf h^c_t;\textbf b^{A^{k,p}}_{t,i};\textbf g_j]),\tag{11}$
其中 $\textbf W_g$ 是一个可学习的参数矩阵， $e_j$ 是 $G^{local}_n$ 中的第 $j$ 个实体， $\textbf g_j$ 是 $\textbf G^{local}_n$ 中的第 $j$ 个嵌入， $\mathbb I(e_j,A^k_{t,i})$ 表示如果 $e_j=A^k_{t,i}$ 则等于1，否则为0。我们将先验分布 $A_t$ 按如下所示进行计算：
$p_{\theta_a}(A_t)=p_{\theta_{a,c}}(A^c_t)\cdot\prod^{|A|}_{i=1}[p_{\theta_{a,d}}(A^k_{t,i})+p_{\theta_{a,g}}(A^k_{t,i})].\tag{12}$
　　推理策略网络通过从响应 $R_t$ 抽取指示性信息来近似动作类别后验分布和关键字后验分布。GRU编码器分别将 $R_t$ 编码到 $\textbf h^R_t$ ，将 $S^q_t$ 编码到 $\textbf h^{S^q}_t$ 。然后，我们获得动作类别的近似后验分布，如下所示：
$q_{\phi_{a,c}}(A^c_t)=softmax(\textbf W^q_c[\textbf h^c_t;\textbf h^{S^q}_t;\textbf h^R_t]).\tag{13}$
　　此后，我们通过从 $q_{\phi_{a,c}}(𝐴𝑐𝑡)$ 的采样 $A^{c,q}_t$ 。为了加强来自 $R_t$ 信息的影响，我们仅使用上下文检测器来近似 $A^k_t$ 的后验分布。解码器初始化为 $\textbf b^{A^{k,q}}_{t,0}=\textbf W^q_k[\textbf h^c_t;\textbf h^{S^𝑞}_𝑡;\textbf e^{A^{c,q}}_t;\textbf h^R_t]$ ，其中 $\textbf e^{A^{c,q}}_t$ 是 $A^{c,q}_t$ 的嵌入， $\textbf W^q_k$ 表示可学习的参数矩阵。
　　在第 $i$ 个解码步骤中，解码器输出 $\textbf b^{A^{k,q}}_{t,i}$ ，因此我们在第 $i$ 个动作关键字上具有如下近似后验分布：
$q_{\phi_{a,d}}(A^k_{t,i})=softmax(MLP([\textbf h^c_t;\textbf h^{S^q}_t;\textbf b^{A^{k,q}}_{t,i}])).\tag{14}$
　　最终我们得到一个 $A_t$ 的近似后验分布：
$q_{\phi_a}(A_t)=q_{\phi_{a,c}}(A^c_t)\cdot \prod^{|A|}_{i=1}q_{\phi_{a,d}}(A^k_{t,i}).\tag{15}$
　　受Jin et al.的启发，我们在 $p_{\theta_s}(S_t)$ 和 $q_{\phi_s}(S_t)$ 中还采用了复制机制，以从 $R_{t-1},U_t,S^q_{t-1}$ 中复制字符。以同样的方式，我们从 $R_t$ 复制字符来生成 $q_{\phi_a}(A_t)$ 。

3.5 Response generator

在响应生成期间的第一阶段，我们使用一个GRU编码器将 $S^q_t$ 编码为 $\textbf S^q_t$ ，这是一个单词级的嵌入矩阵。 $\textbf S^q_t$ 中的每个列向量反映了 $S^q_t$ 中相应单词的嵌入向量。以相同的方式，将 $A^{k,q}_t$ 编码为 $\textbf A^{k,q}_t$ 。如3.3节和3.4节所述，我们还分别计算出 $S^q_t$ 和 $A^{k,q}_t$ 的整体嵌入 $\textbf h^{S^q}_𝑡$ 和 $\textbf h^A_k$ 。具有GRU单元的响应解码器采用 $\textbf b^R_{t,0}=\textbf W_d[\textbf h^c_t;\textbf h^{S^q}_t;\textbf e^{A^{c,q}}_𝑡;\textbf h^{A^{k,q}}_t]$ 作为初始隐藏状态。
　　在第 $i$ 个解码步骤中，第 $i - 1$ 步的输出 $\textbf b^R_{t,i−1}$ 地读取上下文表示 $\textbf H_t$ 来获得 $\textbf b^h_{t,i}$ ，同时， $\textbf b^R_{t,i−1}$ 还分别读取 $\textbf S^q_t$ 和 $\textbf A^{k,q}_t$ 以获得 $\textbf b^s_{t,i}$ 和 $\textbf b^a_{t,i}$ 。随后， $[\textbf b^h_{t,i}; \textbf b^s_{t,i}; \textbf b^a_{t,i}; \textbf e^R_{t,i−1}]$ 被带入到解码器GRU单元以输出 $\textbf b^R_{t,i}$ ，其中 $\textbf e^R_{t,i−1}$ 是第 $(i - 1)$ 个词的嵌入。 $R_{t,i}$ 的生成概率被形式化为生成概率和复制概率的和：
$\begin{aligned} & p_{\theta_g}(R_{t,i})=p^g_{\theta_g}(R_{t,i})+p^c_{\theta_g}(R_{t,i}),\\ & p^g_{\theta_g}(R_{t,i})=\frac{1}{z_R}exp(MLP(\textbf b^R_{t,i})),\\ & p^c_{\theta_g}(R_{t,i})=\frac{1}{z_R}\sum_{j:W_j=R_{t,i}}exp({\textbf h^W_j}^T\cdot \textbf b^R_{t,i}), \end{aligned}\tag{16}$
其中 $p^g_{\theta_g}(R_{t,i})$ 是生成概率， $p^c_{\theta_g}(R_{t,i})$ 是复制项， $z_R$ 是与 $p^c_{\theta_g}(R_{t,i})$ 共享的归一化项。我们将 $R_{t-1}$ ， $U_t$ ， $S^q_t$ 和 $A^{k,q}_t$ 序列进行拼接以得到 $W$ ，其中 $W_j$ 是 $W$ 中的第 $j$ 个单词，而 $\textbf h^W_j$ 是 $[\textbf H_t; \textbf S^q_t;\textbf A^{k,q}_t]$ 中的第 $j$ 个向量。

3.6 Collapsed inference and training

在这里插入图片描述
　　等式5提供了优化所有组件的统一目标。但是，联合分布 $p_{\theta_s}(S_t)·p_{\theta_a}(A_t)$ 很难进行优化，因为 $p_{\theta}(A_t)$ 很容易被 $𝑆p_{\theta_s}(S_t)$ 不正确的采样结果 $S^p_t$ 所误导。为了解决这个问题，我们通过将目标函数分解为2个优化目标，提出了一个2阶段的collapsed inference方法。在第一阶段，我们将 $p_{\theta_s}(S_t)$ 拟合到 $q_{\phi_s}(S_t)$ 以得出ELBO（图4中的➊标记）：
$\begin{aligned} & log~p_{\theta}(R_t|R_{t-1},U_t,G^{global}) \\ & \ge \mathbb E_{q_{\phi_s}(S_{t-1})}\bigg[ \mathbb E_{q_{\phi_s}(S_t)}[\mathbb E_{p_{\theta_a}(A_t)}[log~p_{\theta_g}(R_t|R_{t-1},U_t,S_t,A_t)]] \\ & -\mathbb {KL}(q_{\phi_s}(S_t)||p_{\theta_s}(S_t))\bigg]\\ & = -\mathcal L_s. \end{aligned}\tag{17}$
　　随后，类似于 $\phi_S$ 和 $\theta_S$ 的优化，我们将 $p_{\theta_a}(A_t)$ 拟合到 $q_{\phi_a}(A_t)$ 以得出ELBO（图4中的➋标记）：
$\begin{aligned} & log~p_{\theta}(R_t|R_{t-1},U_t,G^{global}) \\ & \ge \mathbb E_{q_{\phi_s}(S_{t-1})}\bigg[ \mathbb E_{q_{\phi_s}(S_t)}[\mathbb E_{p_{\theta_a}(A_t)}[log~p_{\theta_g}(R_t|R_{t-1},U_t,S_t,A_t)]] \\ & -\mathbb {KL}(q_{\phi_a}(A_t)||p_{\theta_a}(A_t))\bigg]\\ & = -\mathcal L_a. \end{aligned}\tag{18}$
　　因此，当不存在人类标注数据时，训练过程包括两个阶段。所以我们有：
$\mathcal L^{un}= \begin{cases} \mathcal L_s & (1st~training~stage)\\ \mathcal L_{s}+\mathcal L_a & (2nd~training~stage). \end{cases}\tag{19}$
　　我们首先最小化 $\mathcal L_s$ 来获得合适的状态追踪结果。然后，我们在第二阶段联合优化所有参数。我们通过SGVB学习VRBOT，并使用Gumbel-Softmax技巧采样样本，以通过离散变量计算梯度。
　　如果有部分可用的标注状态 $\bar S_t$ 和动作 $\bar A_t$ ，我们添加一个辅助损失 $\mathcal L^{sup}$ 以进行半监督训练：
$\mathcal L^{sup}=-(log~p_{\theta_g}(R_t|\bar S_t,\bar A_t,R_{T-1},U_t))\\ +log(p_{\theta_s}(\bar S_t)\cdot q_{\phi_s}(\bar S_t))+log(p_{\theta_a}(\bar A_t)\cdot q_{\phi_a}(\bar A_t)).\tag{20}$
　　在测试过程中，我们仅执行 $p_{\theta_s}(S_t)$ 和 $p_{\theta_a}(A_t)$ 来推断患者状态和医生的动作（图3中的b部分）。