根植于统计力学的随机方法

最新推荐文章于 2022-09-01 14:32:16 发布

柳叶吴钩

最新推荐文章于 2022-09-01 14:32:16 发布

阅读量406

点赞数

分类专栏：神经网络与机器学习笔记文章标签：神经网络

本文链接：https://blog.csdn.net/moge19/article/details/84669394

版权

神经网络与机器学习笔记专栏收录该内容

40 篇文章 11 订阅

订阅专栏

1 引言

统计力学的主题围绕对大系统宏观平衡态性质的形式化研究，而系统的每个基本元素遵循力学的微观定律。统计力学的主要目标是从微观元素推导出宏观物体的热力学性质。

系统越有序或者它的概率分布越集中，则熵越小。

2 统计力学

考虑具有许多自由度的物理系统，它可以驻留在大量可能状态中的任何一个。例如，用 $p_i$ 表示一个随机系统中状态 $i$ 发生的概率：
$p_i \geq0，对于所有i \tag{式1}$
且
$\sum _i p_i = 1 \tag{式2}$
用 $E_i$ 表示系统在状态 $i$ 时的能量，统计热力学基本结论告诉我们，当系统和它周围的环境处于热平衡时，一个基本的结果是状态 $i$ 发生的概率如下：
$p_i = \frac{1}{Z} exp(-\frac{E_i}{k_B T}) \tag{式3}$
其中 $T$ 为开尔文绝对温度， $k_B$ 为Boltzmann常数，Z为与状态无关的常数，将式2的定义代入式3中得到
$\sum _i exp(-\frac{E_i}{k_B T}) \tag{式4}$
规范化量Z称为状态或者剖分函数。式3的概率分布称为典型分布或者Gibbs分布；指数因子（ $E_i/k_B T$ ）称为Boltzmann因子。
对于Gibbs分布：
（1）能量低的状态比能量高的状态发生的概率高；
（2）随着温度T降低，概率集中在低能状态的一个更小的子集上。
温度T可以视为一种伪温度，它控制神经元"突触噪声"的热波动。将常数 $K_B$ 为单位1而重新度量之，因此可以重新定义概率 $p_i$ 和剖分函数Z如下：
$p_i = \frac{1}{Z} exp(- \frac{E_i}{T} ) \tag{式5}$
和
$\sum exp(- \frac{E_i}{T}) \tag{式6}$
T可以简单称为系统温度，
自由能量和熵
物理系统的Helmholtz自由能量记为F，由剖分函数定义如下：
$T\log Z \tag{式7}$
系统的平均能量定义为：
$\sum_i p_i E_i \tag{式8}$
$< . >$ 表示总体平均运算，可以看出平均能量和自由能量之差为：
$\sum_i p_i \log p_i \tag{式9}$
式子右边忽略温度T，称为系统的熵，表示为：
$\sum_i p_i \log p_i \tag{式10}$
因此式9可以重写为
$< E > - F = T H$
或等价于
$\tag{式11}$
若两个系统 $A$ 和 $A^{'}$ 彼此热接触，假设系统 $A$ 比系统 $A^{'}$ 更小，这样 $A^{'}$ 可以看作具有恒温T的热存储器，两个系统的总熵趋于依照关系式：
$\Delta H + \Delta H'\geq 0$
指系统 $F$ 的自由能量逐渐降低至平衡态时变为最小。即为最小自由能量原则：
随机系统变元的自由能量的最小值在热平衡时达到，此时系统服从Gibbs分布，自然偏爱具有最小自由能量的物理系统。

3 马尔可夫链

考虑由多个随机变量组成的系统，其演化可由一个随机过程描述，随机变量 $X_n$ 在时刻n取值 $x_n$ 称为系统在n时刻的状态。随机变量所有可能的值构成的空间称为系统的状态空间。如果随机过程 $\lbrace X_n,n =1,2,... \rbrace$ 的构造使得 $X_{n+1}$ 的条件概率分布仅依靠于 $X_n$ 的值而与其他以前的值无关，称这个过程为马尔可夫链。更准确地说，我们有
$P（X_{n+1} = x_{n+1}|X_n = x_n,...,X_1 = x_1）= P（X_{n+1}|X_n = x_n） \tag{式12}$
这称之为马尔可夫特性。换句话说：
如果系统在 $n + 1$ 时刻出现状态 $x_{n+1}$ 的概率仅依赖于系统在n时刻出现状态 $x_n$ 的概率，则随机变量序列 $X_1,X_2,X_3...,X_n,X_{n+1}$ 称为马尔可夫链。
转移概率
在马尔可夫链中，从一个状态到另一个状态的转移是随机的，但输出符合却是确定的。令
$p_{ij} = P（X_{n+1} = j|X_n = i） \tag{式13}$
表示在n时刻状态 $i$ 转移到 $n + 1$ 时刻状态j的转移概率。既然 $p_{ij}$ 为条件概率，所有的转移概率必须满足两个条件：
$p_{ij} \geq 0, 对于所有的i，j \tag{式14}$
$\sum_j p_{ij } = 1，对于所有的i \tag{式15}$
将假定转移是固定的，不随时间改变，即式13所有时间n成立，在这种情况下，马尔可夫链称为关于时间是齐次的。
若系统具有有限数目的可能状态，例如K个状态，则转移概率构成一个 $K X K$ 的矩阵
$\begin{vmatrix} p_{11} &p_{12} & ... &&p_{1k} \\p_{21} &p_{22} & ... &&p_{2k} \\ &....\\\\ p_{k1} &p_{k2} & ... &&p_{kk} \\ \end{vmatrix} \tag{式16}$
它的元素满足式14和式15所述的条件。而后一条件就是P的每行的和为1.这种类型的矩阵称为随机矩阵。任何随机矩阵可以作为转移概率矩阵。
令 $p_{ij}^{(m)}$ 表示从状态 $i$ 到状态 $j$ 的m步转移概率：
$p_{ij}^{(m)} = P(X_{n+m} = x_j|X_n = x_i)，m=1,2,... \tag{式17}$
$p_{ij}^{(m+1)} = \sum_k p_{ik}^{(m)}p_{kj}，m =1,2,... \tag{式18}$
$p_{ij}^{(m+m)} = \sum_k p_{ik}^{(m)}p_{kj}^{(n)}，m =1,2,... \tag{式19}$

马尔可夫链的详细说明

(1) 一个由如下项目定义的随机模型：
有限K可能状态，表示为S={1，2，…K}。
一些列相应的概率{ $p_{ij}$ }，其中 $p_{ij}$ 为从状态 $i$ 到 $j$ 的状态转移概率，并且满足
$p_{ij} \geq 0$
$\sum_j p_{ij } = 1，对于所有的i$
(2) 给定已描述的随机模型，马尔可夫链是由下列一系列的随机变量 $X_0,X_1,X_2,....$ 所给定，其中他们的值根据相应的马尔可夫特征取值于状态S：
$P(X_{n+1} = j|X_n=i,X_{n-1},....,X_0=i_0) =P(X_{n+1} = j|X_n = i)$