对话系统【Paper阅读】

1. Review of spoken dialogue systems

  • 简介:简述了对话系统的架构
  • 这里写图片描述
  • ASR(Automatic Speech Recognition)

    • 将user的语音转化为文本,句子(sequence of words)
      • Stochastic approach(HMMs,GMMs)
      • N-best recognition(topN 想死的句子,可以re-score)
      • Confidence scores
  • SLU(Spoken Language Understanding)

    • 基于ASR结果获得语句的语义表示
    • stored in one or more frames
      • frames由slots组成,获取意图和槽位信息
      • 框架语义表示的三元组
        • action:表示意图识别,如查询
        • slot:槽位,如订机票场景下槽位包含(时间、起点、终点)
        • value:槽位取值,表示从query中解析获得的内容
  • DM(Dialogue Management)

    • 目的是根据SLU的结果给出下一步的response
      • 如让user confirm confidence score低于某个阈值的slow-value
    • 复杂的做法是可以结合上下文,结合多轮对话的(dialogue turn)的内容来判断和获取
  • NLG(Natural Language Generation)

    • 将DM返回的decision转成text format(grammatically and semantically correct)
    • 最简单的方法是:template-based,通过组合slot来返回text
    • 稍微复杂一些的方法: sentence aggregation
      • 为了使输出的文本连贯,需要考虑上下文(如历史对话过程 dialogue history module 中出现的省略词,代词等)。同时处理redundant words。
  • TTS(Text-to-speech synthesis)

    • 将Text转化为Speech
    • step1,将abbreviation替换掉
    • step2,根据语义调整语调(intonation)和语速(speed)

2. POMDP-based statistical spoken dialogue system:a review

  • 简介:简述了POMDP相关的模型和系统研究
  • 关键词:
  • POMDP

    • 关键词
      • based on belief state:b(t)
      • select an action:a(t)
      • receive a reward:r(t)
      • transition to state:s(t+1)
      • policy:π,表示from belief states to actions
    • 这里写图片描述
    • solving / optimizing the POMDP:选择最优policy,使得当前t时刻的value最大(discount)
  • Belief state representation and monitoring

    • 基于POMDP,state被表示成3个factor:
      • user’s goal:g(t)
      • user utterance/ last input:u(t)
      • dialogue history:h(t)
      • 这里写图片描述
    • 基于此可对原公式进行分解 factorisation,但现有的对话系统仍然很复杂,可结合2个新的方法
      • the N-best approach including pruning and recombination strategies
        • belief state通过最可行的n个状态list估计
      • the factored Bayesian Network approach
  • Policy representation and RL

3. 插入一波MDP的学习/强化学习

  • 强化学习
    • https://www.zhihu.com/search?type=content&q=mdp
    • 策略:
      • 定义:指状态到动作的映射,指给定状态s 时,动作集上的一个分布,用条件概率分布给出的。
      • 表示每个状态点下不同action的概率,放在一起是一套策略。由于每个状态点存在不同的可能性,因此基于某状态点的每个策略(实例)的收益是可计算的,但单个策略的收益是依概率变化的,可以计算期望。
      • 这里写图片描述
      • 如下图,策略π表示基于每个状态点的action概率都是0.5
        • 这里写图片描述
      • 回报率的计算是基于下一时间点的,即当前(S(t),A(t))完成后达到S(t+1)所带来的reward。
        • 这里写图片描述
        • 这里写图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值