1. 基本概念
1)学习
与环境互动,获得某种行动与其结果的因果关系信息,进而决定之后采取什么样的行动以实现目标。
2)强化学习(Reinforcement Learning, RL)
将当前场景(situation)映射到适宜的行动(action)以实现奖励回报(reward)的最大化
- 需要不断探索尝试
- 行动不仅仅是造成即时的反馈,也可能对后续的奖励产生影响
- 两大特征:
- 通过试错来寻找合适的行动(trial-and-error search)
- 延时奖励(delayed reward)
2. 熵 (信息论)
熵(entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大)
3. 玻尔兹曼分布
玻尔兹曼分布(Boltzmann distribution),或称吉布斯分布(Gibbs distribution),是一种概率分布或概率测度,它给出一个系统处于某种状态的概率,是该状态的能量及温度的函数。该分布以下列形式表示:
p
i
∝
p_{i} \propto
pi∝
e
−
ε
i
/
(
k
T
)
e^{-\varepsilon_{i}/(kT)}
e−εi/(kT)
其中
p
i
p_{i}
pi是系统处于状态i的概率,
ε
i
\varepsilon_{i}
εi是该状态的能量,
k
T
kT
kT为玻尔兹曼常数
k
k
k和热力学温度
T
T
T的乘积。