强化学习
文章平均质量分 86
斑布斑布
多动脑子
展开
-
关于SAC算法训练和测试的区别
SAC(Soft Actor-Critic)Method是一种强化学习算法,在使用策略梯度算法的同时,也考虑了最大熵原理,鼓励学习的策略在追求最大的优化值(即reward)的同时,也考虑了增加执行动作action时的探索性。训练和测试则是强化学习中的两个关键步骤,在写测试的代码的时候,发现了SAC算法在测试时需要更改的几个要点。在此记录。部分内容由ChatGPT4协助润色。原创 2023-10-24 17:44:49 · 169 阅读 · 1 评论 -
关于强化学习(RL)中网络结构设计的笔记和思考
SAC网络下的evaluate()和get_action()函数,本质上都是得到动作,然后在函数式中计算其相关的均值,标准差,得到随机数,然后通过这些信息,生成新的动作。区别只是在于,evaluate()用在训练中,而get_action用在训练后。原创 2023-10-16 16:57:51 · 226 阅读 · 1 评论 -
RL(Reinforcement Learning)学习笔记
RL(reinforcement learning)学习笔记原创 2023-08-16 21:21:12 · 60 阅读 · 1 评论