基本大概框架
强化学习的主要角色是 智能体 (agent)和 环境,环境是智能体存在和互动的世界。智能体根据当前的环境做出action,action影响环境。然后智能体根据新的环境再进行action。
基础用语
- 状态(state, s):当前环境的一个客观描述
- 观察(observation, o):当前环境的一个描述,可能会漏掉部分信息
- 策略(policy):决定下一步执行何种行动的规则
- 回报(reward):某种状态进行某种动作产生的真值
- 轨迹(trajectory):包含状态动作回报的一个链
- 返回值(return):一个轨迹的所有回报的总和