一、 定义
二、强化学习究竟在解决什么问题
通过与环境交互,不断学习,由智能体产生最优的策略序列,即解决智能贯序决策问题。应用场景有很多:AlphaGo围棋决策,仓库存储管理,机器人控制,等等。
ref:https://www.jianshu.com/p/bdfe7989d205
三、强化学习知识结构
四、强化学习的数学基础:
概率理论,贝尔曼方程
ref:https://blog.csdn.net/kittyzc/article/details/84721141
五、各种算法原理以及优缺点比较
未完待续