王树森、李宏毅的课程关键点截图和注释。
Reinforcement Learning:
################################################################
“规格严谨,功夫到家”
################################################################
################################################################
-
有限马尔科夫决策过程
有限MDP中状态、动作、收益集合由有限个元素。
智能体的规则,只要智能体不能改变的事物都认为是环境的一部分。
-
probability destiny function(PDF),连续和离散;
-
(术语)
两种主流:
网站 :https://gym.openai.com
Qlearning:
深度学习学习Q函数(建模过程),TD用来训练DQN
TD算法如下:4.
用TD训练DQN
TD训练DQN总结
policy based方法,函数近似
近似,建模,神经网络
目标
一种简化的策略梯度
门特卡罗近似,是无偏估计
A_C方式
Saras算法:使用TD算法,适用于表格型强化学习。也可以用于学习价值网络
Q-learning算法:
tabular形式:
DQN:
###############################
李宏毅:强化学习教学
#############################################
-
2.3
3.
4.
5
二、PPO
1
2.
3.
40.
5.
李洪义的建议,1. 固定targetnet work,2探索(exploration consensus with Wang's)
A_C