强化学习 之 探索与利用

14 篇文章 0 订阅
13 篇文章 1 订阅

在这里插入图片描述
在这里插入图片描述

一、概念

Exploitation
	执行能够获得最优收益的策略
Exploration
	尝试更多可能的策略,不一定会是最优收益
	可能发现更好的策略

二、策略探索的原则

朴素方法
	贪心策略和 ϵ-greedy
	衰减贪心策略
		ϵ随时间衰减
积极初始化
	给Q(a^i)一个较高的初始化值
基于不确定性的度量
	显示地考虑动作的价值分布
	UCB:上置信界
概率匹配
	Thompson Sampling
		根据每个动作成为最优的概率来选择动作
状态搜索
	像AlphaGo,基于整个透明的可搜索可枚举的环境

三、多臂老虎机

问题的形式化描述
	动作集合 ai∈A, i = 1, ..., K
	收益(反馈)函数分布 R(r | a^i) = P(r | a^i)
最大化累计时间的收益
	收益估计
		期望收益和采样次数的关系
			Qn(a^i) = (r1 + r2 + ... + rn-1) / (n - 1)
			空间复杂度为O(n)
		增量实现
			Qn+1(a^i) = Qn + 1/n(rn - Qn)
			空间复杂度为O(1)
算法框架
	初始化 Q(a^i) := c^i, N(a^i) = 0, i = 1, ..., n
	主循环 t = 1:T
		利用策略π选取某个动作a
		获取收益:rt = Bandit(a)
		更新计数器:N(a) := N(a) + 1
		更新估值:Q(a) := Q(a) + 1/N(a)[rt - Q(a)]

四、Regret 函数

Regret 是决策与最优决策的收益差
Total Regret 函数 σR
	等价性
下界(Lai & Robbins)
	希望找到具有次线性收敛保证的regret

五、讨论

1.在策略学习过程中,往往需要进行新策略探索与旧策略的利用其目的分别是尝试不同策略,以进行策略提升/提升对旧策略的评估能力

2.如果一直进行策略探索,算法可能具有线性增长的total regret不会收敛;在MAB问题中,使用增量式蒙特卡洛进行奖励值估计能够使得算法的空间复杂度从O(N)优化至O(1);一个具有次线性total regret收敛保证的策略探索算法总是能够在有限时间内让强化学习算法收敛

3.基于不确定性测度的方法,通常被选择次数越多的动作,其不确定性越低;对于积极初始化方法,虽然随着采样次数的增加,其估计偏差会越来越低,但仍然可能会面临一个收敛到局部最优的情况;衰减ϵ-greedy才具有次线性收敛保证

4.对于ϵ-greedy策略探索方式,更高的ϵ 不一定优于更低ϵ探索方式让算法获得的最终奖励值

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

如果大家喜欢这篇文章的话,希望大家收藏、转发、关注、评论、点赞,转载请注明出自这里。 PS:本随笔属个人学习小结,文中内容有参考互联网上的相关文章。如果您博文的链接被我引用,我承诺不会参杂经济利益;如果有版权纠纷,请私信留言。其中如果发现文中有不正确的认知或遗漏的地方请评论告知,谢谢! 还是那句话:不是我喜欢copy,是站在巨人的肩膀上~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值