RL

0 术语

0.0 马尔科夫过程

在这里插入图片描述

0.1 模型无关

在这里插入图片描述

1. PG: Reinforce

  算期望值, 大数定律(平均数定律, 平均数也能表示期望值, 在大样本的情况下)
在这里插入图片描述
在这里插入图片描述

Bellman_Equation

参考文献
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可能还有一些童鞋会问,算该状态的value function的时候,其它的状态的value function是怎么知道的呢?

比如算4.3的时候,我们如何知道它后继状态的value funciton为0.8,10。其实这些值一开始可以任意初始化,后面可以学习更新,就类似于神经网络的权值参数,一开始任意初始化,后面通过loss反向更新一样。

exploration and exploitation

exploration 会尝试很多不同的事情,看它们是否比以前尝试过的更好。

exploitation 会尝试过去经验中最有效的行为。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值