应用
游戏,仿真,不需要指定已知数据,根据反馈进行学习,比如AlphaGO.落地实现不多。
环境
pip install gym
官网地址:
gym.oepenai.com
Box2D
MuJoCo
rlSchool
基本算法
马尔科夫决策过程MDP、策略迭代、价值迭代、广义策略迭代、
最优价值算法
Q-learning、DQN改进
反向强化学习
反向强化学习,最大熵反向强化学习,GAIL
其他强化学习方法
稀疏回报求解、Model-based
基于策略梯度的算法
Actor-Critic算法:与gan相似,有A3C,A2C,使策略单调提升优化:TRPO,GAE、PPO
off-policy策略梯度法:Retrace、ACER、DPG、DDPG。
应用
其中环境的参数可以是指定的,智能体的参数需要不断进行学习。
1、在一个离散时间序列,t=0,1,2,…中,智能体需要完成某项任务。
2、在每个时刻t,智能体执行动作at,并在环境中得到状态st和回报rt,环境会对智能