【论文笔记】dialog system related with keywords: hierarchical reinforcement learning, context-aware, EVPI


本次论文目录

[1]Context-Aware Symptom Checking for Disease Diagnosis Using Hierarchical Reinforcement Learning
[2]Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information


[1]Context-Aware Symptom Checking for Disease Diagnosis Using Hierarchical Reinforcement Learning

剖出的问题

1. 许多人会在网络上查找特殊症状从而进行自我诊断,但网络查找的 信息质量得不到保证
2. 一个好的在线诊断系统需要:

  • 达到 较高的疾病诊断准确率
  • 为了提供更好的用户体验,系统只做 有限数量的询问
    先前的一些工作提出的方案要么是导致结果陷入局部最优,使准确性受损,要么没有考虑与用户进行尽量简短的交互。
创新点/贡献

文章提出了两种增强诊断准确率的创新方法:
1. 使用分级强化学习来实现联合决策进行诊断,采用了分而治之的思想,即将人的身体分成若干部分(这里是分为:胸部、手臂、背部、臀部、头部、腿部、颈部、骨盆、皮肤、一般症状),相当于为每一部分创建一个分模型,每一分模型有自己的symptoms,这里是用主模型在每一步选出一个分模型去与病人进行交互,即是如下图的的一个两级模型。
在这里插入图片描述
训练主模型前需要先训练分模型,因为训练主模型需要分模型的推理结果,这里依旧采用DQN作为模型去逼近Q函数。

2. 提出 策略转换实现上下文感知(context-aware)。
通过证明给出了两个引理,即在action分别是诊断行为和询问行为时,策略转换的公式(对上下文无感的最优策略——>上下文感知的最优策略)
L e m m a 2 : i f   π c ∗ ( s ) ∈ D , t h e n ( a c t i o n 为 诊 断 行 为 ) π c ∗ ( s ) = a r g   m a x a ∈ D Q ∗ ( s , a ) p ( c ∣ a ) Lemma 2: if\ \pi_c^*(s) \in D, then(action为诊断行为) \\ \pi_c^*(s) = arg\ max_{a \in D}Q^*(s,a)p(c|a) Lemma2:if πc(s)D,thenactionπc(s)=arg maxaDQ(s,a)p(ca)
L e m m a 3 : a s s u m e   γ = 1.   i f   π c ∗ ( s ) ∈ L ( s y m 集 合 )   t h e n ( a c t i o n 为 询 问 行 为 ) π c ∗ ( s ) ≈ a r g   m a x a ∈ L Q ∗ ( s , a ) p ( c ∣ s ′ ) p ( s ′ ^ ∣ s , c , a ) p ( s ′ ^ ∣ s , a ) Lemma 3:assume\ \gamma = 1.\ if\ \pi_c^*(s) \in L(sym集合)\ then(action为询问行为) \\ \pi_c^*(s) \approx arg\ max_{a \in L}Q^*(s,a)p(c|s^{'}) \frac{p(\hat{s^{'}}|s,c,a)}{p(\hat{s^{'}}|s,a)} Lemma3:assume γ=1. if πc(s)L(sym) then(action)πc(s)arg maxaLQ(s,a)p(cs)p(s^s,a)p(s^s,c,a)

实验结果

在这里插入图片描述
在这里插入图片描述


[2]Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

剖出问题

文章认为一个好的问题其 预期答案是有用的,所以这里定义了所谓的 “澄清问题”:询问当前文本未给出的信息的问题。给出的模型是基于EVPI(完全信息期望值)的决策理论框架,通过EVPI来衡量那个问题最可能引出更有用的信息。
数据来源于StackExchange,就那种在网站上发帖求助的数据,如下:
在这里插入图片描述

创新点/贡献

1. 提出了一个基于EVPI框架的新的神经网络模型,用于对澄清问题进行排序。

建模过程:
一个问题 q i q_i qi的值可以在基于所有可能回答的基础上用期望效用来表示:
E V P I ( q i ∣ p ) = ∑ a j ∈ A P [ a j ∣ p , q i ] U ( p + a j ) (1) EVPI(q_i|p) = \sum_{a_j\in A}P[a_j|p,q_i]U(p + a_j)\tag{1} EVPI(qip)=ajAP[ajp,qi]U(p+aj)(1)
其中 p p p表示的是所发的帖子,即预先给的信息, q i q_i qi是备选问题集 Q Q Q里选的潜在问题, a j a_j aj是备选答案集 A A A里选的潜在答案, P [ a j ∣ p , q i ] P[a_j|p,q_i] P[ajp,qi]代表在给定原始贴 p p p和一个澄清问题 q i q_i qi的前提下获得答案 a j a_j aj的概率, U ( p + a j ) U(p+a_j) U(p+aj)则是衡量 p + a j p+a_j p+aj的信息有多完备。问题在于:

  • P ( a j ∣ p , q i ) P(a_j|p,q_i) P(ajp,qi)的概率分布
  • U ( p + a j ) U(p+a_j) U(p+aj)的效用函数
    在这里插入图片描述

模型的主要思路:

1.每当给定一个帖子,就用Lucene检索十个与 p p p相似的帖子,针对这十个帖子提问的问题就作为候选问题集 Q Q Q,而针对问题对帖子所做的修改则作为的候选答案集 A A A

2.对于每一个候选问题 q i q_i qi,都会产生一个 答案表征 F ( p , q i ) F(p,q_i) F(p,qi),并计算候选答案 a j a_j aj F ( p , q i ) F(p,q_i) F(p,qi)的距离。
(注: d i s t ( F a n s ( p ‾ , q i ‾ ) , a j ^ ) = 1 − c o s _ s i m ( F a n s ( p ‾ , q i ‾ ) , a j ^ ) dist(F_{ans}(\overline{p},\overline{q_i}),\hat{a_j}) = 1 - cos\_sim(F_{ans}(\overline{p},\overline{q_i}),\hat{a_j}) dist(Fans(p,qi),aj^)=1cos_sim(Fans(p,qi),aj^),该距离可用来计算 P [ a j ∣ p , q i ] P[a_j|p,q_i] P[ajp,qi],即找到与问题更为匹配的answer)

3.如果答案 a j a_j aj更新了帖子 p p p的效用,则计算 U ( p + a j ) U(p + a_j) U(p+aj)
(注: U ( p i + a j ) = σ ( F u t i l ( p i ‾ , q j ‾ , a j ‾ ) ) 5 U(p_i + a_j) = \sigma(F_{util}(\overline{p_i},\overline{q_j},\overline{a_j}))^5 U(pi+aj)=σ(Futil(pi,qj,aj))5)

4.最后根据式(1)计算各问题的EVPI,进行排序。
(注: F a n s F_{ans} Fans F u t i l F_{util} Futil分别由一个有五个隐层的前向神经网络计算得出)

2. 给出了一个源自StackExchange的新的数据集,使我们能够通过查看人们提出问题的类型来学习提问澄清问题的模型。

实验结果

对专家标注进行评估&对初始问题进行评估(最后一列):

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值