- 博客(2)
- 收藏
- 关注
原创 DataWhale-深度学习2阶段-打卡2
策略梯度算法(2024-1-18~2024-1-20) 策略梯度(policy−basedpolicy-basedpolicy−based) 1.基于价值算法的缺点 无法表示连续动作。DQN等算法通过学习状态和动作的价值函数来间接指导策略。只能处理离散动作问题。 高方差 。基于价值的方法通常是通过采样来估计价值函数,导致方差很高。 探索与利用的平衡问题 。ϵ-greedy\epsilon\text{-greedy}ϵ-greedy 策略可以实现一定程度的随机但效果不理想。 2.策略梯度算法 累积的价值期
2024-01-19 21:38:39
418
1
原创 DataWhale-深度学习2阶段-打卡1
$\tag{2.2}$$在给定的历史状态s0s1⋯st的情况下,某个状态的未来只与当前状态st有关系,于历史状态无关。因为这允许我们在没有考虑系统完整历史的情况下预测和控制其行为。
2024-01-17 20:13:53
925
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅