用熵方法学习所有可能的策略
1. 引言
深度强化学习(RL)能够处理和近似复杂的观测,从而产生精细的行为,是一种标准工具。不过,许多深度RL方法会优化确定性策略,因为在完全可观测的情况下,只有一种最优策略。但为了提高鲁棒性和应对随机环境,学习随机策略或概率性行为往往更可取。
2. 什么是熵
香农熵(以下简称熵)用于衡量随机变量所包含的信息量,信息通过编码所有可能状态所需的比特数来计算。公式如下:
$$
\mathcal{H} X \triangleq \mathcal{I}(X) = -\sum {x \in X} p(x) \log_b p(x)
$$
其中,$X \triangleq {x_0, x_1, \cdots, x_{n - 1}}$ 是随机变量,$\mathcal{H}$ 是熵,$\mathcal{I}$ 是信息内容,$b$ 是对数的底数(常用 $b \triangleq 2$ 表示比特,$b \triangleq 10$ 表示班,$b \triangleq e$ 表示奈特,比特是最常用的底数)。
例如,一枚硬币有两种状态(假设不立着),可用 0 和 1 编码,所以硬币的熵(以比特为单位)是 1。一个骰子有六种可能状态,需要三个比特来描述(实际值是 2.5849…)。
为了准确表示动作 - 概率分布,需要对足够多的状态和动作进行采样。可以使用熵作为策略分布均匀性的代理度量,并将其作为惩罚项包含在目标函数中。
3. 最大熵强化学习
最大化策略的熵能促使智能体访问所有状态和动作,使其学习所有行为,而非寻找最大化奖励的确定
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



