【论文笔记】dialog system related with keywords: hierarchical reinforcement learning, context-aware, EVPI

最新推荐文章于 2022-07-04 14:00:42 发布

偶尔范特西

最新推荐文章于 2022-07-04 14:00:42 发布

阅读量322

点赞数

分类专栏：论文笔记文章标签： NLP Dialog System

本文链接：https://blog.csdn.net/qq_38255829/article/details/103165765

版权

论文笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本次论文目录

[1]Context-Aware Symptom Checking for Disease Diagnosis Using Hierarchical Reinforcement Learning
[2]Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

[1]Context-Aware Symptom Checking for Disease Diagnosis Using Hierarchical Reinforcement Learning

剖出的问题

1. 许多人会在网络上查找特殊症状从而进行自我诊断，但网络查找的 信息质量得不到保证。
2. 一个好的在线诊断系统需要：

达到 较高的疾病诊断准确率
为了提供更好的用户体验，系统只做 有限数量的询问
先前的一些工作提出的方案要么是导致结果陷入局部最优，使准确性受损，要么没有考虑与用户进行尽量简短的交互。

创新点/贡献

文章提出了两种增强诊断准确率的创新方法：
1. 使用分级强化学习来实现联合决策进行诊断，采用了分而治之的思想，即将人的身体分成若干部分（这里是分为：胸部、手臂、背部、臀部、头部、腿部、颈部、骨盆、皮肤、一般症状），相当于为每一部分创建一个分模型，每一分模型有自己的symptoms，这里是用主模型在每一步选出一个分模型去与病人进行交互，即是如下图的的一个两级模型。
在这里插入图片描述
训练主模型前需要先训练分模型，因为训练主模型需要分模型的推理结果，这里依旧采用DQN作为模型去逼近Q函数。

2. 提出策略转换实现上下文感知(context-aware)。
通过证明给出了两个引理，即在action分别是诊断行为和询问行为时，策略转换的公式（对上下文无感的最优策略——>上下文感知的最优策略）
$if\ \pi_c^*(s) \in D, then（action为诊断行为） \\ \pi_c^*(s) = arg\ max_{a \in D}Q^*(s,a)p(c|a)$
$3:assume\ \gamma = 1.\ if\ \pi_c^*(s) \in L(sym集合)\ then(action为询问行为) \\ \pi_c^*(s) \approx arg\ max_{a \in L}Q^*(s,a)p(c|s^{'}) \frac{p(\hat{s^{'}}|s,c,a)}{p(\hat{s^{'}}|s,a)}$

实验结果

在这里插入图片描述

[2]Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

剖出问题

文章认为一个好的问题其 预期答案是有用的，所以这里定义了所谓的 “澄清问题”：询问当前文本未给出的信息的问题。给出的模型是基于EVPI(完全信息期望值)的决策理论框架，通过EVPI来衡量那个问题最可能引出更有用的信息。
数据来源于StackExchange，就那种在网站上发帖求助的数据，如下：
在这里插入图片描述

创新点/贡献

1. 提出了一个基于EVPI框架的新的神经网络模型，用于对澄清问题进行排序。

建模过程：
一个问题 $q_i$ 的值可以在基于所有可能回答的基础上用期望效用来表示：
$EVPI(q_i|p) = \sum_{a_j\in A}P[a_j|p,q_i]U(p + a_j)\tag{1}$
其中 $p$ 表示的是所发的帖子，即预先给的信息， $q_i$ 是备选问题集 $Q$ 里选的潜在问题， $a_j$ 是备选答案集 $A$ 里选的潜在答案， $P[a_j|p,q_i]$ 代表在给定原始贴 $p$ 和一个澄清问题 $q_i$ 的前提下获得答案 $a_j$ 的概率， $U(p+a_j)$ 则是衡量 $p+a_j$ 的信息有多完备。问题在于：

$P(a_j|p,q_i)$ 的概率分布
$U(p+a_j)$ 的效用函数

模型的主要思路：

1.每当给定一个帖子，就用Lucene检索十个与 $p$ 相似的帖子，针对这十个帖子提问的问题就作为候选问题集 $Q$ ，而针对问题对帖子所做的修改则作为的候选答案集 $A$ 。

2.对于每一个候选问题 $q_i$ ，都会产生一个 答案表征 $F(p,q_i)$ ，并计算候选答案 $a_j$ 和 $F(p,q_i)$ 的距离。
(注： $dist(F_{ans}(\overline{p},\overline{q_i}),\hat{a_j}) = 1 - cos\_sim(F_{ans}(\overline{p},\overline{q_i}),\hat{a_j})$ ，该距离可用来计算 $P[a_j|p,q_i]$ ，即找到与问题更为匹配的answer)