自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 DataWhale-深度学习2阶段-打卡2

策略梯度算法(2024-1-18~2024-1-20)策略梯度(policy−basedpolicy-basedpolicy−based)1.基于价值算法的缺点无法表示连续动作。DQN等算法通过学习状态和动作的价值函数来间接指导策略。只能处理离散动作问题。高方差 。基于价值的方法通常是通过采样来估计价值函数,导致方差很高。探索与利用的平衡问题 。ϵ-greedy\epsilon\text{-greedy}ϵ-greedy 策略可以实现一定程度的随机但效果不理想。2.策略梯度算法累积的价值期

2024-01-19 21:38:39 336

原创 DataWhale-深度学习2阶段-打卡1

$\tag{2.2}$$在给定的历史状态s0​s1​⋯st​的情况下,某个状态的未来只与当前状态st​有关系,于历史状态无关。因为这允许我们在没有考虑系统完整历史的情况下预测和控制其行为。

2024-01-17 20:13:53 859

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除