强化学习——day15 读论文：马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用（2022 计算机学报）

想太多!

于 2022-09-12 07:30:00 发布

阅读量248

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43537420/article/details/126787661

版权

自然语言处理算法

强化学习专栏收录该内容

10 篇文章 6 订阅

订阅专栏

马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用（2022 计算机学报）

思维导图和笔记下载
马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用（2022 计算机学报）

思维导图和笔记下载

马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用（2022 计算机学报）

chap 0 提出了一个自回归生成的LSTM语言模型作为基线系统

chap1 先验控制向量

① 利用无监督K近邻方法从参考序列中提取控制向量

② 枚举所有的K个控制向量，生成K个候选的预测序列，问题转化为挑选出最佳预测序列——使用重打分来选取最佳预测序列

③ 试探—开发平衡：基于控制向量的模型

y 对应部分的预测序列；
r 对应控制向量，分别代表模型的两个输入;
K 为分组个数，选取合适的Ｋ的值对生成性能的影响较大

chap2 马尔可夫决策过程重定义

目的：解决基线系统中传统LSTM语言模型：

① 输入参考序列暴露偏差；
② 通过交叉熵训练 ;
②忽视整个序列自然度的问题

前提：使用MDP重定于弱约束自然语言生成

解决方法：用策略梯度算法代替基线系统进行训练：

① 策略梯度算法的训练输入的是预测序列而不是参考序列
② 并且使用的训练准则是 BLEU分数而不是交叉熵

弱约束自然语言生成指是只给定不完整的文本序列前缀 ,生成完整的文本序列的任务

自然语言生成方法

n-gram 语言模型

前馈神经网络语言模型

chap3 实验结果与分析

实验设计

三个数据集用以评测本文的模型：

1）英文的Penn Treebank (PTB)数据集；
2）中文短信（SMS）数据集；
3）Fisher（FSH）数据集

实验结果

策略梯度样算法的实验结果

基于策略梯度算法的系统相比于基线系统都给出了更好的性能．这说明：

1）通过直接使用测试准则来训练神经网络，本文提出的模型有着更好的生成性能
2）本文提出的系统在训练时使用的是预测序列，因此受到暴露偏差问题的影响也较小

先验控制向量的实验结果

CV表示是否使用了先验控制向量，数据是上一个实验的BLEU分数，部分预测和生成得分两种方法是对照组，从表中的结果可以看到，两个对照组的性能都比较差

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。