强化学习——基础知识

1. 基本概念

1)学习

与环境互动,获得某种行动与其结果的因果关系信息,进而决定之后采取什么样的行动以实现目标。

2)强化学习(Reinforcement Learning, RL)

将当前场景(situation)映射到适宜的行动(action)以实现奖励回报(reward)的最大化

  • 需要不断探索尝试
  • 行动不仅仅是造成即时的反馈,也可能对后续的奖励产生影响
  • 两大特征
    • 通过试错来寻找合适的行动(trial-and-error search)
    • 延时奖励(delayed reward)

2. 熵 (信息论)

entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大)

3. 玻尔兹曼分布

玻尔兹曼分布(Boltzmann distribution),或称吉布斯分布(Gibbs distribution),是一种概率分布或概率测度,它给出一个系统处于某种状态的概率,是该状态的能量及温度的函数。该分布以下列形式表示:
p i ∝ p_{i} \propto pi e − ε i / ( k T ) e^{-\varepsilon_{i}/(kT)} eεi/(kT)
其中 p i p_{i} pi是系统处于状态i的概率, ε i \varepsilon_{i} εi是该状态的能量, k T kT kT为玻尔兹曼常数 k k k和热力学温度 T T T的乘积。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值