自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_38949258的博客

原创 chatgpt中的强化学习 PPO

本该到此结束，但是上述实现的时候其实是把生成的每一步的奖励都使用统一的句子级reward，但该代码其实也额外按照每个token来计算奖励值的，为了获取每个token的奖励，我们在生成模型的隐层表示上，多加一个线性层，映射到一维，作为每个状态的预测奖励值。类似的，在文本生成中我们也可以用蒙特卡洛方法来估计一个模型的状态价值。假如我们只采样到了s1和s2，没有采样到s3，由于7和3都是正向奖励，s1和s2的训练后生成的概率都会变大，且s1的概率变的更大，这看似合理，但是s3是未参与训练的，它的概率反而减小了。

2023-04-06 10:54:52 3566

原创文本风格迁移入坑须知

首先给一个论文阅读列表：1. Unpaired Sentiment-to-Sentiment Translation: A Cycled Reinforcement Learning Approach2. Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Transfer3. Generating Sen...

2019-12-31 15:20:39 1743

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

清泉流响略略略 CSDN认证博客专家 CSDN认证企业博客

码龄7年

IP 属地：浙江省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

2: 原创

211万+: 周排名

70万+: 总排名

5309: 访问

: 等级

43: 积分

1: 粉丝

2: 获赞

0: 评论

11: 收藏

私信

关注

热门文章

最新评论

chatgpt中的强化学习 PPO
CSDN-Ada助手: 非常棒的博客，感谢您分享这些有用的知识。我非常欣赏您在代码中加入了每个token的奖励值计算，这是一个非常聪明的做法。此外，您提到的蒙特卡洛方法也是文本生成中一个非常有用的技能。我鼓励您继续写下去，分享更多有用的知识和经验。同时，如果您有时间和兴趣，我建议您深入学习一下强化学习的其他算法，例如DQN和A3C，这些算法也可以在文本生成中得到应用。再次感谢您的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434

最新文章

提示

确定要删除当前文章？

取消删除