对话系统相关论文

On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems

摘要:计算精确的reward function对于通过强化学习来优化一个对话策略很重要。实际应用中,用显式的用户反馈作为reward信号往往不可靠并且难收集。如果用户的intent提前知道,或者数据可获取用于离线预训练,但实际上这两个都不能应用于大多数实际系统的应用。这里我们提出了一个在线学习架构,对话策略通过基于高斯过程的主动学习机制来训练,高斯过程在一个用rnn encoder-decoder生成的连续空间对话表示中作用。实验表明提出的这个架构能够显著降低数据注释成本和噪声用户反馈。

包括三部分:a dialogue policy, a dialogue embedding function, an active reward model of user feedback。


当每轮对话结束时,一组turn-level特征ft被抽取,作为Embedding Function的输入来获得一个固定维度的对话表示d,d作为Reward Model的输入。

Reward被描述为一个高斯过程,对每个输入点,估计任务成功率和不确定性,基于这种不确定性,R()会决定是否咨询用户获取反馈,然后返回一个reinforcement signal去更新Dialogue Policy,Dialogue Policy采用GP-SARSA算法训练,这个算法也采用高斯过程估计来提供在线有效采样的强化学习算法。每次对话的质量通过累计奖励定义,每次奖励-1还是最终奖励0或20取决于reward model对任务成功的估计。

在对话系统中,高斯过程被成功的用于策略优化和IRL reward function regression,可见论文Gaussian processes for POMDP-based dialogue manager optimisation


Learning to compose words into sentences with reinforcement learning

用强化学习学习树结构神经网络,用于计算自然语言句子的表示。

通常有三种构建句子的向量表示的方法:1.RNN,将RNN最终的隐状态作为句子表示;2.tree-structured network递推的将词表示组成句子的表示,不同于序列模型,这种模型的结构根据句子的句法结构组织;3.用CNN以颠倒的方式构建表示。本文的工作可以看做前两个方法的折中,不用树结构显式的监督,而是用强化学习来学习树结构,将计算的句子表示作为reward signal。模型包括两部分:一个句子表示模型和一个用于学习树结构的强化学习算法,这个树结构在句子表示模型中使用。本文的句子表示模型遵循SPINN,SPINN是一个shift-reduce parser,SHIFT操作在parse树中引入一个新的叶子节点,REDUCE操作将两个节点合并成一个成分。用强化学习(policy gradient法)来发现最好的树结构,用Policy network来参数化action(SHIFT,REDUCE)。

进行了四组实验,情感分类,语义相关性判断,自然语言推理,句子生成,效果提升不是特别明显。


NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING
来自Google Brain. 利用RL来优化RNN的结构。神经网络不容易设计,需要很多专业知识。本文用RNN生成神经网络的模型描述,用强化学习训练这个RNN来最大化生成的网络结构的准确率。在一些数据集上,会比现有的state-of-the-art model,如LSTM要好。
论文提出神经结构搜索,一个基于梯度的方法来寻找好的结构。准确率作为reward signal,计算policy gradient来更新控制器,因此下次迭代时,控制器就会给高准确率的结构更高的可能性,。


也是用REINFORCE来训练,

End-to-End Reinforcement Learning of Dialogue Agents for Information Access

强化学习在任务驱动型对话系统中的应用。这篇文章提出一个KB-InfoBot,它是一个通过交互询问特征的方式为用户从知识库(KB)中提供实体的对话智能体,KB-InfoBot的成分都是用强化学习以end-to-end的方式训练。


Framework of Automatic Text Summarization Using Reinforcement Learning

第一篇用强化学习做自动摘要的文章,强化学习不仅可以用于文本自动摘要,还可以用于sentence compression。在强化学习架构下建模摘要构建的过程,给定摘要的特征表示,优化设定的目标函数。在强化学习求解中,本文采用TD算法求解价值函数。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园整体解决方案是响应国家教育信息化政策,结合教育改革和技术创新的产物。该方案以物联网、大数据、人工智能和移动互联技术为基础,旨在打造一个安全、高效、互动且环保的教育环境。方案强调从数字化校园向智慧校园的转变,通过自动数据采集、智能分析和按需服务,实现校园业务的智能化管理。 方案的总体设计原则包括应用至上、分层设计和互联互通,确保系统能够满足不同用户角色的需求,并实现数据和资源的整合与共享。框架设计涵盖了校园安全、管理、教学、环境等多个方面,构建了一个全面的校园应用生态系统。这包括智慧安全系统、校园身份识别、智能排课及选课系统、智慧学习系统、精品录播教室方案等,以支持个性化学习和教学评估。 建设内容突出了智慧安全和智慧管理的重要性。智慧安全管理通过分布式录播系统和紧急预案一键启动功能,增强校园安全预警和事件响应能力。智慧管理系统则利用物联网技术,实现人员和设备的智能管理,提高校园运营效率。 智慧教学部分,方案提供了智慧学习系统和精品录播教室方案,支持专业级学习硬件和智能化网络管理,促进个性化学习和教学资源的高效利用。同时,教学质量评估中心和资源应用平台的建设,旨在提升教学评估的科学性和教育资源的共享性。 智慧环境建设则侧重于基于物联网的设备管理,通过智慧教室管理系统实现教室环境的智能控制和能效管理,打造绿色、节能的校园环境。电子班牌和校园信息发布系统的建设,将作为智慧校园的核心和入口,提供教务、一卡通、图书馆等系统的集成信息。 总体而言,智慧校园整体解决方案通过集成先进技术,不仅提升了校园的信息化水平,而且优化了教学和管理流程,为学生、教师和家长提供了更加便捷、个性化的教育体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值