自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_65964945的博客

原创 DataWhale-深度学习2阶段-打卡2

策略梯度算法(2024-1-18~2024-1-20) 策略梯度（policy−basedpolicy-basedpolicy−based） 1.基于价值算法的缺点无法表示连续动作。DQN等算法通过学习状态和动作的价值函数来间接指导策略。只能处理离散动作问题。高方差。基于价值的方法通常是通过采样来估计价值函数，导致方差很高。探索与利用的平衡问题。ϵ-greedy\epsilon\text{-greedy}ϵ-greedy 策略可以实现一定程度的随机但效果不理想。 2.策略梯度算法累积的价值期

2024-01-19 21:38:39 418 1

原创 DataWhale-深度学习2阶段-打卡1

$\tag{2.2}$$在给定的历史状态s0s1⋯st的情况下，某个状态的未来只与当前状态st有关系，于历史状态无关。因为这允许我们在没有考虑系统完整历史的情况下预测和控制其行为。

2024-01-17 20:13:53 925 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄4年

2
原创

28
点赞

30
收藏

21
粉丝

关注

私信

热门文章

分类专栏

Datawhale 1篇

最新评论

DataWhale-深度学习2阶段-打卡2
CSDN-Ada助手: 非常棒的博客！你对策略梯度算法的介绍清晰明了，让读者能够快速了解其优点和缺点。希望你能继续分享更多关于深度学习的知识和经验。或许你可以在以后的博文中探讨一些与策略梯度算法相关的深度学习框架，比如TensorFlow或PyTorch，以及它们在实际应用中的一些技巧和注意事项。期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
DataWhale-深度学习2阶段-打卡1
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

提示

确定要删除当前文章？

取消删除