强化学习——day15 读论文:马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用(2022 计算机学报)

马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用(2022 计算机学报)

思维导图和笔记下载

点击下载

马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用(2022 计算机学报)

chap 0 提出了一个自回归生成的LSTM语言模型作为基线系统

chap1 先验控制向量

① 利用无监督K近邻方法从参考序列中提取控制向量

② 枚举所有的K个控制向量,生成K个候选的预测序列,问题转化为挑选出最佳预测序列——使用重打分来选取最佳预测序列

③ 试探—开发平衡:基于控制向量的模型

y 对应部分的预测序列;
r 对应控制向量,分别代表模型的两个输入;
K 为分组个数,选取合适的K的值对生成性能的影响较大

chap2 马尔可夫决策过程重定义

目的:解决基线系统中传统LSTM语言模型:

① 输入参考序列暴露偏差;
② 通过交叉熵训练 ;
②忽视整个序列自然度的问题

前提:使用MDP重定于弱约束自然语言生成

解决方法:用策略梯度算法代替基线系统进行训练:

① 策略梯度算法的训练输入的是预测序列而不是参考序列
② 并且使用的训练准则是 BLEU分数 而不是交叉熵

弱约束自然语言生成指是只给定不完整的文本序列前缀 ,生成完整的文本序列的任务

自然语言生成方法

n-gram 语 言模型

前馈神经网络语言模型

chap3 实验结果与分析

实验设计

三个数据集用以评测本文的模型:

1)英文的Penn Treebank (PTB)数据集;
2)中文短信(SMS)数据集;
3)Fisher(FSH)数据集

实验结果

策略梯度样算法的实验结果
基于策略梯度算法的系统相比于基线系统都给出了更好的性能.这说明:

1)通过直接使用测试准则来训练神经网络,本文提出的模型有着更好的生成性能
2)本文提出的系统在训练时使用的是预测序列,因此受到暴露偏差问题的影响也较小

先验控制向量的实验结果
CV表示是否使用了先验控制向量,数据是上一个实验的BLEU分数,部分预测和生成得分两种方法是对照组 ,从表中的结果可以看到,两个对照组的性能都比较差
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值