[ACL2023] Prompter: Zero-shot Adaptive Prefixes for Dialogue State Tracking Domain Adaptation

ShadyPi

已于 2023-08-22 11:55:11 修改

阅读量248

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理语言模型 prompt

于 2023-07-28 20:26:30 首次发布

本文链接：https://blog.csdn.net/ShadyPi/article/details/131982271

版权

自然语言处理专栏收录该内容

19 篇文章 1 订阅

订阅专栏

Prompter: Zero-shot Adaptive Prefixes for Dialogue State Tracking Domain Adaptation

原文链接

Aksu T, Kan M Y, Chen N F. Prompter: Zero-shot Adaptive Prefixes for Dialogue State Tracking Domain Adaptation[J]. arXiv preprint arXiv:2306.04724, 2023.

问题描述：
Dialogue State Tracking (DST) 这个任务我还是第一次见，正好作者配备了一个DST任务的说明。
turn包括一个连续系统 $s_i$ 和用户的发言 $u_i$ ，即 $t_i=(s_i,u_i)$ 。每个turn又有一些简短的声明，从不同的角度展示用户的偏好，该说明集合为 $B_i$ ，由一系列声明 $D$ 组成，即 $B_i=(D_0, D_1, \cdots, D_K)$ 。而这些简短声明又由一些 (slot-label, slot-value) 对组成，即 $D_j=\{s_0:v_0,s_1:v_1,\cdots, s_N:v_N\}$ ，如 $s_i=\text{餐厅的地点}, v_i=\text{市中心}$ 。然后 $s_i$ 也有一些解释，解释这个属性的含义，如“餐厅的地点：指餐厅在城市中坐落的位置”。对每个 $v_i$ ，如果 $s_i$ 在对话语境中没有被提到， $v_i$ 就会被设置为none，否则就是一个token序列。而DST任务就是给定对话语境 $D C$ ，预测 $B_i$ ， $D C$ 由截止目前的一系列turn组成。

用一句人话来讲，应该就是捕捉对话中的各种信息吧。文章还给出了一个样例，当对话语境变化而的时候，LLM有可能还没有摆脱训练时语境里的逻辑。
在这里插入图片描述

在这里插入图片描述
第一眼，我超这不是HyperPrompt吗？仔细一看雀氏应该是类似的架构。

第一步，将slot description的embedding和global prompt一起输入cross attention里，得到slot prompt。公式如下
$S=((GW_q)(EW_k)^T)(EW_v)$
与Transformor中的QKV机制是一样的。

第二步，生成推理模型T5每层要用的soft prompt，这里的架构跟hyperprompt是一样的，都是先投影，经过激活层再反投影。不过HyperPrompt里面这些参数是网络生成的，这里就直接训练了，且每一个Transformer层的soft prompt都有一对投影、反投影参数，应该是HyperPrompt-Sep的架构。

最后一步就是将生成的soft prompt作为前缀连接到T5 model里，做向前传播。

作者说，他们这种soft prompt的优势在于可以把slot description加到模型的前向传播中，使得slot description不会被占了输入很大篇幅的dialogue冲刷掉。

在这里插入图片描述

因为不是很了解任务，所以几个basline我也不太熟，但看结果应该是SOTA，只有Hotel数据集上不太行。作者在limitation中也提到了这一点，但表示暂时无法解释。

ShadyPi

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
[ACL2023] Prompter: Zero-shot Adaptive Prefixes for Dialogue State Tracking Domain Adaptation

Soft prompt 助力 Dialogue State Tracking 任务
复制链接

扫一扫