FredericWang666-CSDN博客

原创莫凡强化学习学习笔记01——引言

举个简单例子，有小游戏1-100关，从第1关打到第100关算是玩一局游戏，我第一局游戏采用固定的操作方式，但是发现最后的总分数并不高，只有70分，于是我调整了操作方式，第二局游戏拿到了90分——通过一局的经验进行调整：回合更新；RL的目的是在一次次的训练过程中不断减少损失，根据State属性对奖励进行设置，使得智能体在环境中随机摸索的过程中不断向着高奖励值的方向前进，最终逼近理想的State。根据任务的类型而定，可以是Agent某一时刻所处的位置，也可以是Agent某一时刻所具有的某一属性。

2024-04-17 16:42:22 390

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 莫凡强化学习学习笔记01——引言

空空如也

空空如也

原创莫凡强化学习学习笔记01——引言