1 引言
统计力学的主题围绕对大系统宏观平衡态性质的形式化研究,而系统的每个基本元素遵循力学的微观定律。统计力学的主要目标是从微观元素推导出宏观物体的热力学性质。
系统越有序或者它的概率分布越集中,则熵越小。
2 统计力学
考虑具有许多自由度的物理系统,它可以驻留在大量可能状态中的任何一个。例如,用
p
i
p_i
pi表示一个随机系统中状态
i
i
i发生的概率:
(式1)
p
i
≥
0
,
对
于
所
有
i
p_i \geq0,对于所有i \tag{式1}
pi≥0,对于所有i(式1)
且
(式2)
∑
i
p
i
=
1
\sum _i p_i = 1 \tag{式2}
i∑pi=1(式2)
用
E
i
E_i
Ei表示系统在状态
i
i
i时的能量,统计热力学基本结论告诉我们,当系统和它周围的环境处于热平衡时,一个基本的结果是状态
i
i
i发生的概率如下:
(式3)
p
i
=
1
Z
e
x
p
(
−
E
i
k
B
T
)
p_i = \frac{1}{Z} exp(-\frac{E_i}{k_B T}) \tag{式3}
pi=Z1exp(−kBTEi)(式3)
其中
T
T
T为开尔文绝对温度,
k
B
k_B
kB为Boltzmann常数,Z为与状态无关的常数,将式2的定义代入式3中得到
(式4)
Z
=
∑
i
e
x
p
(
−
E
i
k
B
T
)
Z = \sum _i exp(-\frac{E_i}{k_B T}) \tag{式4}
Z=i∑exp(−kBTEi)(式4)
规范化量Z称为状态或者剖分函数。式3的概率分布称为典型分布或者Gibbs分布;指数因子(
−
E
i
/
k
B
T
-E_i/k_B T
−Ei/kBT)称为Boltzmann因子。
对于Gibbs分布:
(1)能量低的状态比能量高的状态发生的概率高;
(2)随着温度T降低,概率集中在低能状态的一个更小的子集上。
温度T可以视为一种伪温度,它控制神经元"突触噪声"的热波动。将常数
K
B
K_B
KB为单位1而重新度量之,因此可以重新定义概率
p
i
p_i
pi和剖分函数Z如下:
(式5)
p
i
=
1
Z
e
x
p
(
−
E
i
T
)
p_i = \frac{1}{Z} exp(- \frac{E_i}{T} ) \tag{式5}
pi=Z1exp(−TEi)(式5)
和
(式6)
Z
=
∑
e
x
p
(
−
E
i
T
)
Z = \sum exp(- \frac{E_i}{T}) \tag{式6}
Z=∑exp(−TEi)(式6)
T可以简单称为系统温度,
自由能量和熵
物理系统的Helmholtz自由能量记为F,由剖分函数定义如下:
(式7)
F
=
−
T
log
Z
F = - T\log Z \tag{式7}
F=−TlogZ(式7)
系统的平均能量定义为:
(式8)
<
E
>
=
∑
i
p
i
E
i
<E> = \sum_i p_i E_i \tag{式8}
<E>=i∑piEi(式8)
<
.
>
<.>
<.>表示总体平均运算,可以看出平均能量和自由能量之差为:
(式9)
<
E
>
−
F
=
−
T
∑
i
p
i
log
p
i
<E> - F=-T \sum_i p_i \log p_i \tag{式9}
<E>−F=−Ti∑pilogpi(式9)
式子右边忽略温度T,称为系统的熵,表示为:
(式10)
H
=
−
∑
i
p
i
log
p
i
H = - \sum_i p_i \log p_i \tag{式10}
H=−i∑pilogpi(式10)
因此式9可以重写为
<
E
>
−
F
=
T
H
<E> -F = TH
<E>−F=TH
或等价于
(式11)
F
=
<
E
>
−
T
H
F = <E> - TH \tag{式11}
F=<E>−TH(式11)
若两个系统
A
A
A和
A
′
A '
A′彼此热接触,假设系统
A
A
A比系统
A
′
A'
A′更小,这样
A
′
A'
A′可以看作具有恒温T的热存储器,两个系统的总熵趋于依照关系式:
Δ
H
+
Δ
H
′
≥
0
\Delta H + \Delta H'\geq 0
ΔH+ΔH′≥0
指系统
F
F
F的自由能量逐渐降低至平衡态时变为最小。即为最小自由能量原则:
随机系统变元的自由能量的最小值在热平衡时达到,此时系统服从Gibbs分布,自然偏爱具有最小自由能量的物理系统。
3 马尔可夫链
考虑由多个随机变量组成的系统,其演化可由一个随机过程描述,随机变量
X
n
X_n
Xn在时刻n取值
x
n
x_n
xn称为系统在n时刻的状态。随机变量所有可能的值构成的空间称为系统的状态空间。如果随机过程
{
X
n
,
n
=
1
,
2
,
.
.
.
}
\lbrace X_n,n =1,2,... \rbrace
{Xn,n=1,2,...}的构造使得
X
n
+
1
X_{n+1}
Xn+1的条件概率分布仅依靠于
X
n
X_n
Xn的值而与其他以前的值无关,称这个过程为马尔可夫链。更准确地说,我们有
(式12)
P
(
X
n
+
1
=
x
n
+
1
∣
X
n
=
x
n
,
.
.
.
,
X
1
=
x
1
)
=
P
(
X
n
+
1
∣
X
n
=
x
n
)
P(X_{n+1} = x_{n+1}|X_n = x_n,...,X_1 = x_1)= P(X_{n+1}|X_n = x_n) \tag{式12}
P(Xn+1=xn+1∣Xn=xn,...,X1=x1)=P(Xn+1∣Xn=xn)(式12)
这称之为马尔可夫特性。换句话说:
如果系统在
n
+
1
n+1
n+1时刻出现状态
x
n
+
1
x_{n+1}
xn+1的概率仅依赖于系统在n时刻出现状态
x
n
x_n
xn的概率,则随机变量序列
X
1
,
X
2
,
X
3
.
.
.
,
X
n
,
X
n
+
1
X_1,X_2,X_3...,X_n,X_{n+1}
X1,X2,X3...,Xn,Xn+1称为马尔可夫链。
转移概率
在马尔可夫链中,从一个状态到另一个状态的转移是随机的,但输出符合却是确定的。令
(式13)
p
i
j
=
P
(
X
n
+
1
=
j
∣
X
n
=
i
)
p_{ij} = P(X_{n+1} = j|X_n = i) \tag{式13}
pij=P(Xn+1=j∣Xn=i)(式13)
表示在n时刻状态
i
i
i转移到
n
+
1
n+1
n+1时刻状态j的转移概率。既然
p
i
j
p_{ij}
pij为条件概率,所有的转移概率必须满足两个条件:
(式14)
p
i
j
≥
0
,
对
于
所
有
的
i
,
j
p_{ij} \geq 0, 对于所有的i,j \tag{式14}
pij≥0,对于所有的i,j(式14)
(式15)
∑
j
p
i
j
=
1
,
对
于
所
有
的
i
\sum_j p_{ij } = 1,对于所有的i \tag{式15}
j∑pij=1,对于所有的i(式15)
将假定转移是固定的,不随时间改变,即式13所有时间n成立,在这种情况下,马尔可夫链称为关于时间是齐次的。
若系统具有有限数目的可能状态,例如K个状态,则转移概率构成一个
K
X
K
K X K
KXK的矩阵
(式16)
P
=
∣
p
11
p
12
.
.
.
p
1
k
p
21
p
22
.
.
.
p
2
k
.
.
.
.
p
k
1
p
k
2
.
.
.
p
k
k
∣
P = \begin{vmatrix} p_{11} &p_{12} & ... &&p_{1k} \\p_{21} &p_{22} & ... &&p_{2k} \\ &....\\\\ p_{k1} &p_{k2} & ... &&p_{kk} \\ \end{vmatrix} \tag{式16}
P=∣∣∣∣∣∣∣∣∣∣p11p21pk1p12p22....pk2.........p1kp2kpkk∣∣∣∣∣∣∣∣∣∣(式16)
它的元素满足式14和式15所述的条件。而后一条件就是P的每行的和为1.这种类型的矩阵称为随机矩阵。任何随机矩阵可以作为转移概率矩阵。
令
p
i
j
(
m
)
p_{ij}^{(m)}
pij(m)表示从状态
i
i
i到状态
j
j
j的m步转移概率:
(式17)
p
i
j
(
m
)
=
P
(
X
n
+
m
=
x
j
∣
X
n
=
x
i
)
,
m
=
1
,
2
,
.
.
.
p_{ij}^{(m)} = P(X_{n+m} = x_j|X_n = x_i),m=1,2,... \tag{式17}
pij(m)=P(Xn+m=xj∣Xn=xi),m=1,2,...(式17)
(式18)
p
i
j
(
m
+
1
)
=
∑
k
p
i
k
(
m
)
p
k
j
,
m
=
1
,
2
,
.
.
.
p_{ij}^{(m+1)} = \sum_k p_{ik}^{(m)}p_{kj},m =1,2,... \tag{式18}
pij(m+1)=k∑pik(m)pkj,m=1,2,...(式18)
(式19)
p
i
j
(
m
+
m
)
=
∑
k
p
i
k
(
m
)
p
k
j
(
n
)
,
m
=
1
,
2
,
.
.
.
p_{ij}^{(m+m)} = \sum_k p_{ik}^{(m)}p_{kj}^{(n)},m =1,2,... \tag{式19}
pij(m+m)=k∑pik(m)pkj(n),m=1,2,...(式19)
马尔可夫链的详细说明
(1) 一个由如下项目定义的随机模型:
有限K可能状态,表示为S={1,2,…K}。
一些列相应的概率{
p
i
j
p_{ij}
pij},其中
p
i
j
p_{ij}
pij为从状态
i
i
i到
j
j
j的状态转移概率,并且满足
p
i
j
≥
0
p_{ij} \geq 0
pij≥0
∑
j
p
i
j
=
1
,
对
于
所
有
的
i
\sum_j p_{ij } = 1,对于所有的i
j∑pij=1,对于所有的i
(2) 给定已描述的随机模型,马尔可夫链是由下列一系列的随机变量
X
0
,
X
1
,
X
2
,
.
.
.
.
X_0,X_1,X_2,....
X0,X1,X2,....所给定,其中他们的值根据相应的马尔可夫特征取值于状态S:
P
(
X
n
+
1
=
j
∣
X
n
=
i
,
X
n
−
1
,
.
.
.
.
,
X
0
=
i
0
)
=
P
(
X
n
+
1
=
j
∣
X
n
=
i
)
P(X_{n+1} = j|X_n=i,X_{n-1},....,X_0=i_0) =P(X_{n+1} = j|X_n = i)
P(Xn+1=j∣Xn=i,Xn−1,....,X0=i0)=P(Xn+1=j∣Xn=i)
常返性
假设一个马尔可夫链从状态
i
i
i开始,它以概率1返回状态i,则称状态i为常返的,也就是说
p
i
=
P
(
状
态
i
的
每
一
个
返
回
)
=
1
p_i = P(状态i的每一个返回)=1
pi=P(状态i的每一个返回)=1
若状态
p
i
<
1
p_i<1
pi<1,则称状态
i
i
i为瞬态。
如果马尔可夫链从一常态开始,则该状态在时间上将无穷次重现,如果从一瞬态开始,它将只能有限次重现
周期性
上图显示一个具有常返态的马尔可夫链,此链经过一系列子态,经过三倍次移动后以相同子态结束。图示说明这个常返的马尔可夫链具有周期性。