技术路线
强化学习的发展如图所示,从policy based的policy gradient和value based的Q-Learning,到两者结合的actor-critic,综合了两者的优势,奠定了现在强化学习的基本框架。从A2C到A3C,大大提升了训练速度。
基本结构
Agent:智能体
Environment:环境
observation:智能体观察到的环境的状态(有些文章里也叫state)
工作原理:
智能体根据你的策略,采取action作用于环境,环境给予智能体observation和reward作为反馈。