强化算法学习记录-3

1.3 Q-Learning算法的策略

使用均匀概率选择行为使用方便但到训练的次数增加,均概率体现不出智能的性质。我们人类在做选择时,会先考虑经常使用的行为。之前发生的行为概率越高,选择的可能性越大。如果再某一个状态下,之前做过选择,应尽可能的选择奖励最高的行为,同时还要保持好奇心,对没有使用的行为要保持探索性。探索使可能性变多,有可能发现更好的策略,同时也给系统带来不确定性,我们无法预测将来会发生什么,就行无人机可能碰到障碍物。探索性太小也不好,对于刚开始训练,应该积极去发现未知的状态,不然训练很慢。可以随着不断地学习来降低探索性并且保持一个下限,保持一定的探索性。可还以设置一个探索的上限,保证在系统的承受范围内。

ε-贪婪策略就是一定概率使用贪婪策略,一定概率使用均概率。ε的值越大就更多的使用贪婪策略,使用当前最好的行为。ε值越小就更多的使用均概率,是探索的可能性更大,可以学习到更多的状态。ε-贪婪策略的步骤:

ε的变化可以和已学经验容量与经验容量之比有关系,。均概率选择行为,所有的行为概率相等。在一个陌生的环境下,要做的行为更可能是熟悉的行为,行为概率分布符合高斯分布。设置一个一维数组与行为集合对应,存储行为在实验中出现的概率。再进行探索时可以使用概率较大的行为。为加快学习速度,在每一个状态的行为集合上设置标记,在探索实验室优先从未使用的行为中选取,直至所有行为都学习过。贪婪策略在某一状态是最优的,当整体不一定是最优的如图2.7、图2.8所示:

 

2.7 Q表迭代n次后移动示意图

 

 

2.8 Q表迭代n+1次后移动示意图

Q-Learning算法仅需要下一个状态来更新当前状态的Q表,第n步状态的影响至少需要n次迭代才能在当前状态Q表中有所体现。若当前状态更新,之前状态都更新的算法是多步Q-Learning。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值