强化学习笔记:(王树森+李宏毅课程综合)Q-learning、Policy Gradient、 A-C.

王树森、李宏毅的课程关键点截图和注释。

Reinforcement Learning:

################################################################

“规格严谨,功夫到家”

################################################################

################################################################

  1. 有限马尔科夫决策过程

    有限MDP中状态、动作、收益集合由有限个元素。

    智能体的规则,只要智能体不能改变的事物都认为是环境的一部分。

  2. probability destiny function(PDF),连续和离散;

  3. (术语)

两种主流:

网站 :https://gym.openai.com

Qlearning:

深度学习学习Q函数(建模过程),TD用来训练DQN

TD算法如下:4.

 用TD训练DQN

TD训练DQN总结

policy based方法,函数近似

近似,建模,神经网络  

目标

一种简化的策略梯度

门特卡罗近似,是无偏估计

A_C方式

Saras算法:使用TD算法,适用于表格型强化学习。也可以用于学习价值网络

Q-learning算法:

tabular形式:

 DQN:

###############################

李宏毅:强化学习教学

#############################################

  1. 2.3

3.

4.

5

二、PPO

1

2.

3.

40.

5.

李洪义的建议,1. 固定targetnet work,2探索(exploration consensus with Wang's)

A_C

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值