- 博客(1)
- 收藏
- 关注
原创 一点关于强化学习算法选择的小建议(DDPG算法弊端)
深度学习领域还是一个很不成熟的领域,算法都在飞速更新迭代中。笔者使用的训练环境是从非强化学习问题中移植过来的,需要自行设定奖惩函数,对新手来说没有经验参考或数值处理工作量太大,都会导致参数数量级不一致,混合进神经网络开始计算梯度的时候就会相互影响,导致不合理的权重更新,需要对输入的样本和奖励值进行归一化处理,至少也要使它们处在1左右的同一数量级。,更容易收敛,对调参要求小,适合新手使用。4、同样是critic-actor算法,,加载模型验证时也只输出边界值。1、经过笔者实践及前辈描述,
2024-05-09 19:58:14
279
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人