- 博客(5)
- 收藏
- 关注
原创 动手学强化学习-策略梯度&&DQN变种
策略梯度这种学习方式是典型的从交互中学习,并且其优化的目标(即策略期望回报)正是最终所使用策略的性能,这比基于价值的强化学习算法的优化目标(一般是时序差分误差的最小化)要更加直接。REINFORCE 算法是策略梯度乃至强化学习的典型代表,智能体根据当前策略直接和环境交互,通过采样得到的轨迹数据直接计算出策略参数的梯度,进而更新当前策略,使其向最大化策略期望回报的目标靠近。相比于之前的值函数算法,会使用更多的序列进行训练。但是,正是因为使用了蒙特卡洛方法,REINFORCE 算法的梯度估计的。
2023-11-20 22:36:13
86
1
原创 动手学强化学习之强化学习进阶篇:DQN算法总结
如果网络过度学习(过拟合)了某些特定的经验数据(可能是由于这些数据在训练集中出现得过于频繁),它可能会在这些数据上表现得特别好,但在未见过的或不常见的数据上表现得较差。我们也可以看到,在 DQN 的性能得到提升后,它会持续出现一定程度的震荡,这主要是神经网络过拟合到一些局部经验数据后由argmax运算带来的影响。:这里指的是由于神经网络在学习过程中的这种过拟合现象,导致了算法性能的震荡。即算法在某些方面学得很好,但这可能限制了其在更广泛、更一般的情况下的适应性和灵活性。
2023-11-20 15:54:34
115
1
原创 深度强化学习落地指南学习笔记-第二章
第二章 动作空间设计 在编码连读动作空间时,大多采用多维向量式动作编码 ,每个编码位置度代表了一个独立的控制参数。 每个参数事先根据实际情况定义合理的取值范围 利用线性变换将他们统一缩放至标准区间[-1,1]内,而通过策略网络的输出动作可以通过逆向变换转换为一组真是的控制参数 连续动作可以按照适当力度进行离散化,同时离散动作也可以以类似于连续动作的方式进行表征 2.3 动作空间的高效性 化整为零:用精度来换效率 就是把一个连续的动作换成是一个可以接受的离散的动作的集合,寻求效率和精度之间的最好的
2023-11-16 11:00:56
88
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人