对话系统总结

基于深度学习的开放领域对话系统

  • http://cjc.ict.ac.cn/online/onlinepaper/42-7-1-201974192124.pdf
  • 开放领域的对话系统:在历史对话信息背景下,人将无领域限制的话语作为查询输入计算机,计算机返回对应的回复语句
  • 以场景设置为标准,对话系统可以分为单轮对话系统和多轮对话系统
    • 单轮对话:只考虑找到给定查询的回复
      • 以q为前提,得到语句r作为回复
    • 多轮对话:综合考虑对话上下文(包括历史对话信息和查询),建立对话的长期依赖关系,给出更加符合对话逻辑的回复
      • 在c的背景下,以q为前提,得到r作为回复
  • 传统的基于规则/模板的开放领域对话系统需要手工制定规则,不需要大规模训练集.而数据驱动的方法需要收集大量的对话数据
  • 72cf269fly1g68pwowcxpj20cd07fq33.jpg
  • 检索式方法.检索式方法首先构建一个供检索的对话语料库,将用户输入的话语视为对该索引系统的查询,从中选择一个回复.具体来说,当用户在线输入话语后,系统首先检索并初步召回一批候选回复列表,再根据对话匹配模型对候选列表做重排序并输出最佳回复.该方法重点在于让匹配模型克服查询和回复之间的语义差

72cf269fly1g68pyhwuy1j20d504wt8q.jpg

  • 生成式方法.受到神经机器翻译的启发,生成式方法的对话系统首先收集大规模对话语料作为训练集,基于深度神经网络构建端到端的对话模型,来学习输入与回复之间的对应模式.在预测阶段,系统根据对话模型计算输入语义向量,再逐个生成词语组成回复话语.
  • 检索与生成相结合的方法

  • 单轮检索模型:对用户输入的查询先检索再重排序给出最佳回复

72cf269fly1g68q354yskj20d808z3yt.jpg

72cf269fly1g68q67qbjuj20ch06udfx.jpg

  • 多轮检索模型:将对话上下文信息表示成语义向量,再计算其与回复的匹配分数

    72cf269fly1g68q9pe7o7j20dg06nwep.jpg

  • 单轮生成模型:Seq2Seq+Attention
  • 多轮生成
  • 基于检索的模型问题:语句质量较高,但依赖于检索数据库,无法创建新回复
  • 基于生成的模型问题:
    • 倾向于生成缺乏语义信息的“万能回复“,因为好的,你好的频次太多
    • 生成句子的质量不能保证
    • exposure bias问题,即训练时使用ground truth,但是测试时是通过贪心搜索或使 Beam Search 来完成的,该 Beam Search 基于先前产生的单词预测下一个单词, 不同于训练模式。 由于该模型从未暴露于自己的预测中,所以在测试时间会导致错误累积。
      • 减缓exposure bias:Scheduled Sampling,在先前的 GroundTrue 单词和先前产生的单词之间随机选择
  • 开放域问答的挑战
    • 回复多样性Diversity of responses:改进排序规则,引入潜在变量,多头注意力机制捕获查询话语中不同方面的语义
    • 话题模型Topic Model:
      • 检索中引入话题线索:先用卷积神经网络将查询和回复表示成句向量,并根据推特基于LDA训练的话题模型计算出其话题加权的向量表示,再将查询分别与回复和回复话题的向量表示进行语义融合,回复也与查询及查询话题的向量表示进行语义融合,实现基于话题的回复选择
      • 生成中引入话题线索:先基于LDA模型学习对话数据的话题,然后将话题信息和输入表示联合起来作为注意力机制的组件来生成与话题相关的回复
    • 引入外部知识external knowledge:
      • 检索:先用TFIDF选择与对话上下文相关的非结构化文本的外部知识,再通过知识编码器RNN进行知识表示,最后计算候选回复匹配分数时同时考虑与上下文和外部知识
      • 生成:用记忆网络建立了一个基于知识库回答的开放领域对话生成系统中.其核心思想是先在对话上下文中找到知识库中的知识,并将知识转换为语义向量表示与对话上下文向量表示整合输入到解码器中生成回复
    • 个性化回复Personalized response:
      • 融入个性化向量
  • 评测指标
    • 当前开放领域对话系统的评价方法有两种思路,一种是人工评测,一种是客观地自动评价指标
    • 检索模型:Recall,P,F1,MAP(平均准确率)
    • 生成模型:
      • 困惑度
        • 评价生成回复语句的语言质量.
        • 其基本思想是测试生成的回复语言质量越高,困惑度越小,越接近人类正常说话
        • 不能评估在对话中回复与上文的相关性
      • BLEU:
        • 根据n元词(n=1,...,4)的准确率计算几何平均来衡量生成回复与真实回复的相似度
        • 有效性低,因为参考回复少
      • ROUGE:也是基于词语重叠程度来衡量生成句子质量
        • 与n-gram不同,指标中的子串不必连续
        • 它基于生成回复和真实回复的最长公共子序列的召回率
      • METEOR:加入了生成回复和真实回复之间的对齐关系.使用wordnet计算特定的序列匹配、同义词、词根、词缀、释义之间的匹配关系
      • 这些评测方法仍然跟人类判断之间的相关性很低

基于深度学习的聊天机器人综述

聊天机器人系统研究进展

对话系统综述

转载于:https://www.cnblogs.com/doragd/p/11396898.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值