SeqGAN_biji

最新推荐文章于 2024-04-15 09:30:03 发布

wang2008start

最新推荐文章于 2024-04-15 09:30:03 发布

阅读量160

点赞数

分类专栏：深度学习自然语言处理 paper研读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang2008start/article/details/103051502

版权

深度学习同时被 3 个专栏收录

67 篇文章 0 订阅

订阅专栏

自然语言处理

28 篇文章 3 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

GAN做生成存在的问题

GAN 不适用于离散数值，梯度不能回传到生成模型的问题

解决方法：将生成器看作是强化学习中的 stochastic policy，SeqGAN 可以直接通过 gradient policy update 避免生成器中的可导问题。

只能对整个sequence打分，如果生成器生成序列的同时判别器来判断，如何平衡当前序列的分数和未来序列的分数又是一个难题

解决方法：判别器对整个序列的评分作为强化学习的奖励信号可以通过 Monte Carlo 搜索传递到序列生成的中间时刻。

使用RL

生成模型被看作一个 agent
目前为止已生成的序列表示当前 state
下一个要生成的单词则是采取的 action
判别模型对序列的评价分数则是返回的 reward
在这里插入图片描述

具体过程

生成器用 LSTM 来编码 sentences，然后将其映射到下一个时刻 token 的概率分布
鉴别器使用CNN，将 Word 转为 vector，一句话一个 matrix，用多个卷积核，进行特征提取，添加了 fc layer 以及 sigmoid activation 来输出给定的序列为真的概率。
采用了MLE来预训练生成器G
再用G生成的样本和真实样本来pretrain D
当D达到某一个准确率的时候，进入对抗性训练的环节

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SeqGAN_biji

GAN做生成存在的问题GAN 不适用于离散数值，梯度不能回传到生成模型的问题解决方法：将生成器看作是强化学习中的 stochastic policy，SeqGAN 可以直接通过 gradient policy update 避免生成器中的可导问题。只能对整个sequence打分，如果生成器生成序列的同时判别器来判断，如何平衡当前序列的分数和未来序列的分数又是一个难题解决方法：判别器...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。