- 博客(1)
- 收藏
- 关注
原创 强化学习的基本概念
策略表征着智能体对于当前的任务的认识,是由状态至动作的映射函数。环境针对当前的状态以及智能体选择的动作给予智能体的反馈即为奖励,在该任务中,一旦智能体按到了雷击钮或因太久未进食等原因而身亡,那么交互结束并获得一个数值化的负奖励。智能体在刚刚进入房间时通过随机选动作来建立自身对于环境的认识的过程属于探索,在掌握了环境的规律后,仍然偶尔随机按按钮来检查自己的认识是否有缺漏的过程也属于探索。智能体按不同的按钮就是不同的动作(吃喝拉撒睡先忽略不计),智能体可以执行的动作的集合就是动作空间。
2023-01-14 19:26:54 404
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人