对话系统【Paper阅读】_对话系统博客-CSDN博客

本文链接：https://blog.csdn.net/moonfansLTH/article/details/82415325

开始学习dialogue system （end to end task-oriented）
参考之前的一些学习资料
- https://blog.csdn.net/moonfansLTH/article/details/81477314
- -

1. Review of spoken dialogue systems

简介：简述了对话系统的架构
ASR（Automatic Speech Recognition）
- 将user的语音转化为文本，句子（sequence of words）
  - Stochastic approach（HMMs，GMMs）
  - N-best recognition（topN 想死的句子，可以re-score）
  - Confidence scores
SLU（Spoken Language Understanding）
- 基于ASR结果获得语句的语义表示
- stored in one or more frames
  - frames由slots组成，获取意图和槽位信息
  - 框架语义表示的三元组
    - action：表示意图识别，如查询
    - slot：槽位，如订机票场景下槽位包含（时间、起点、终点）
    - value：槽位取值，表示从query中解析获得的内容
DM（Dialogue Management）
- 目的是根据SLU的结果给出下一步的response
  - 如让user confirm confidence score低于某个阈值的slow-value
- 复杂的做法是可以结合上下文，结合多轮对话的（dialogue turn）的内容来判断和获取
NLG（Natural Language Generation）
- 将DM返回的decision转成text format（grammatically and semantically correct）
- 最简单的方法是：template-based，通过组合slot来返回text
- 稍微复杂一些的方法： sentence aggregation
  - 为了使输出的文本连贯，需要考虑上下文（如历史对话过程 dialogue history module 中出现的省略词，代词等）。同时处理redundant words。
TTS（Text-to-speech synthesis）
- 将Text转化为Speech
- step1，将abbreviation替换掉
- step2，根据语义调整语调（intonation）和语速（speed）

2. POMDP-based statistical spoken dialogue system:a review

简介：简述了POMDP相关的模型和系统研究
关键词：
- POMDP（partially observable markov decision processed）
  - https://www.zhihu.com/question/27693760/answer/151976730
- user simulators：可以直接和对话系统交互，且被语料集训练。
POMDP
- 关键词
  - based on belief state：b(t)
  - select an action：a(t)
  - receive a reward：r(t)
  - transition to state：s(t+1)
  - policy：π，表示from belief states to actions
- solving / optimizing the POMDP：选择最优policy，使得当前t时刻的value最大（discount）
Belief state representation and monitoring
- 基于POMDP，state被表示成3个factor：
  - user’s goal：g(t)
  - user utterance/ last input：u(t)
  - dialogue history：h(t)
- 基于此可对原公式进行分解 factorisation，但现有的对话系统仍然很复杂，可结合2个新的方法
  - the N-best approach including pruning and recombination strategies
    - belief state通过最可行的n个状态list估计
  - the factored Bayesian Network approach
Policy representation and RL

3. 插入一波MDP的学习/强化学习

强化学习
- https://www.zhihu.com/search?type=content&q=mdp
- 策略：
  - 定义：指状态到动作的映射，指给定状态s 时，动作集上的一个分布，用条件概率分布给出的。
  - 表示每个状态点下不同action的概率，放在一起是一套策略。由于每个状态点存在不同的可能性，因此基于某状态点的每个策略（实例）的收益是可计算的，但单个策略的收益是依概率变化的，可以计算期望。
  - 如下图，策略π表示基于每个状态点的action概率都是0.5
  - 回报率的计算是基于下一时间点的，即当前（S(t)，A(t)）完成后达到S(t+1)所带来的reward。