熵的定义详细解释熵的定义，以及他在热力学和信息学的解释角度的不同以及概念差异-CSDN博客

本文链接：https://blog.csdn.net/sinat_37574187/article/details/144639184

熵shāng[2]是一种测量在动力学方面不能做功的能量总数，也就是当总体的熵增加，其做功能力也下降，熵的量度正是能量退化的指标。熵亦被用于计算一个系统中的失序现象，也就是计算该系统混乱的程度。熵是一个描述系统状态的函数，但是经常用熵的参考值和变化量进行分析比较，它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用，在不同的学科中也有引申出的更为具体的定义，是各领域十分重要的参量。

GPT-4o

Poe

熵的定义

“熵”（Entropy）是一个用于描述系统无序程度或不确定性的概念，在不同学科中有不同的具体定义和解释。熵最早出现在热力学中，由德国物理学家 鲁道夫·克劳修斯 (Rudolf Clausius) 于1854年引入；后来，信息论中的熵由 克劳德·香农 (Claude Shannon) 于1948年提出。尽管它们的背景和应用领域不同，但两者之间有深刻的数学联系。

1. 熵在热力学中的定义

热力学熵 (Thermodynamic Entropy)

热力学中，熵是用来描述系统的“无序程度”或“能量分布状态”的物理量。其数学定义基于热力学过程中的热量和温度关系：

定义公式：

ΔS=∫δQrevT\Delta S = \int \frac{\delta Q_{\text{rev}}}{T}ΔS=∫TδQrev

其中：

SSS 是熵
δQrev\delta Q_{\text{rev}}δQrev 是可逆过程中的微小热量变化
TTT 是绝对温度

直观理解：

熵代表系统中的“无序程度”或可能状态的数量。系统越无序，熵越高。
当能量在系统中分布更均匀时，熵值增大。例如，冰融化为水时，水分子从有序的晶体结构变得无序，熵增加。

热力学中熵的意义

状态函数：熵是一个状态函数，其值只取决于系统的初始和最终状态，而与过程路径无关。
第二定律：热力学第二定律指出，孤立系统的熵总是增加或保持不变。这表明自然趋向于无序。
绝对熵：根据第三定律，当温度趋于绝对零度（0 K）时，完美晶体的熵为零，因为此时系统的状态完全确定。

例子：

水蒸发：液态水分子排列较为紧密，变为气态时分子更加无序，熵增大。
化学反应：反应后生成更多分子（如分解反应）常伴随熵的增加。

2. 熵在信息学中的定义

信息熵 (Information Entropy)

信息论中的熵由香农提出，用于衡量随机变量的不确定性或信息量。

定义公式（离散随机变量的香农熵）：

H(X)=−∑iP(xi)log⁡2P(xi)H(X) = - \sum_{i} P(x_i) \log_2 P(x_i)H(X)=−i∑P(xi)log2P(xi)

其中：

H(X)H(X)H(X) 是随机变量 XXX 的熵
P(xi)P(x_i)P(xi) 是 XXX 取值为 xix_ixi 的概率
log⁡2\log_2log2 是以 2 为底的对数（可以换成自然对数，公式会改变）

直观理解：

信息熵衡量了一个随机变量的“不确定性”或“信息量”。
当每种可能性 P(xi)P(x_i)P(xi) 的概率相等时，信息熵最大，因为不确定性最高。
如果一个事件的发生是确定的（概率为1），信息熵为0，因为没有不确定性。

信息论中熵的意义

不确定性的度量：熵越高，随机变量的取值可能性越多，信息越不确定。
信息量的度量：熵也可以解释为传输数据时需要的最小编码长度。例如，熵可以用来评估压缩算法的效率。
概率分布的性质：熵反映了概率分布的均匀程度。均匀分布（所有事件的概率相同）具有最高熵，偏态分布则熵较低。

例子：

字符串压缩：在文本中，如果字母“e”出现频率非常高，算法可以利用此信息减少编码长度，降低文件大小。
数据流中的不确定性：比如，对于一个骰子，均匀掷出时熵较高；如果掷出的结果总是“6”，熵为零。

3. 热力学熵与信息熵的联系和差异

联系

概率和状态分布：
- 热力学熵和信息熵都与系统的状态分布密切相关。
- 在统计物理学中，热力学熵可以通过系统的微观状态概率来定义，公式为：
- S=−kB∑iPiln⁡PiS = -k_B \sum_i P_i \ln P_iS=−kBi∑PilnPi
  其中 kBk_BkB 是玻尔兹曼常数，PiP_iPi 是系统处于第 iii 个微观状态的概率。
- 类似地，信息熵也用概率分布来定义，只是缺少物理常数 kBk_BkB。
核心思想：两者都可以被看作对“可能状态”或“不确定性”的量化。热力学熵描述的是物理系统的微观状态数量，而信息熵描述的是信息系统中消息的不确定性。
最大熵原则：
- 热力学中，孤立系统趋向于最大熵状态（热力学平衡）。
- 信息论中，最大熵分布代表在限制条件下最不偏的分布。

差异

特性	热力学熵	信息熵
研究对象	物理系统（分子、能量、热量等）	信息系统（数据、消息、概率分布等）
单位	焦耳/开尔文（J/K）	比特（bits）或奈特（nats，使用自然对数）
常数因子	包含玻尔兹曼常数 kBk_BkB	没有物理常数
背景	热力学、统计力学	信息论、通信理论
目标	描述系统的无序度和能量转化效率	衡量消息的不确定性或平均信息量

总结

热力学熵 描述了物理系统中能量分布的无序程度，与热量和温度相关；它是热力学第二定律的核心概念。
信息熵 是概率分布的一种数学度量，反映了信息系统中不确定性或信息量的多少。
两者的本质相通，都是对“可能状态”的统计描述，但背景和单位不同。

最大熵分布代表在限制条件下最不偏的分布，这句话里面最不偏是什么意思

GPT-4o

Poe

“最不偏”是一个统计学和信息论中的概念，指的是在已知的限制条件下，不引入任何额外的假设或偏好，保持对未知信息的最大程度的客观性和中立性。也就是说，在现有的已知条件之外，我们不会偏向任何特定的可能性或假设，而是让所有符合条件的可能性尽可能“均匀”地分布。

详细解释：

1. 最大熵原理的背景

最大熵原理（Maximum Entropy Principle）是由物理学家埃德温·杰恩斯（Edwin Jaynes）提出的，它是一种从已知信息构建概率分布的方法。该原理的核心思想是：在已知的限制条件下，选择熵最大的概率分布，因为它是最不偏、最符合现有信息的分布。

例如：

如果我们知道一个随机变量的期望值和方差，但对其分布没有其他信息，那么最大熵原则告诉我们，应选择熵最大的分布（如正态分布）来描述这个随机变量，因为它仅利用了已知的限制条件，对未知信息不做任何额外假设。
如果我们完全不知道一个骰子的偏好（除了它有6个面），最大熵原则会选择均匀分布，因为这不偏向任何一个面。

2. “最不偏”的意义

“最不偏”可以从以下几个角度理解：

不引入额外假设：
- 最大熵分布只利用了约束条件（已知信息），没有额外假设或偏向其它可能性。
- 例如，在不知道骰子偏向的情况下，我们假设每个面出现的概率相等（均匀分布），因为这不偏向任何特定的结果。
尽量均匀：
- 最大熵分布在给定约束条件下尽可能地“均匀”，即它最大程度地分散了概率，反映了我们的“无知”或“中立”。
- 如果我们知道一个骰子可能偏斜，但不知道具体偏斜方向，那么均匀分布（最大熵）是最不偏的选择，因为它不偏向任何特定面。
信息论意义：
- 熵可以看作随机变量的不确定性或信息量的度量。选择最大熵分布意味着，我们在满足限制条件的情况下，保留了系统中尽可能多的不确定性，没有对未知信息进行人为压缩或调整。

3. 一个简单的例子：骰子问题

假设我们要描述一个骰子，但对它的特性没有任何已知信息。

如果我们根据最大熵原理，骰子所有面出现的概率应该是均匀分布：

P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=16P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = \frac{1}{6}P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=61

这是因为均匀分布的熵最大，且它不偏向任何一个面。我们没有理由认为某个面更有可能出现。
如果我们增加一个已知条件：例如，骰子掷出的偶数面（2、4、6）的概率总和是 0.6，而奇数面（1、3、5）的概率总和是 0.4。此时，最大熵原理会在满足这个约束的情况下，选择分布：

P(2)=P(4)=P(6)=0.2,P(1)=P(3)=P(5)=0.133P(2) = P(4) = P(6) = 0.2, \quad P(1) = P(3) = P(5) = 0.133P(2)=P(4)=P(6)=0.2,P(1)=P(3)=P(5)=0.133

这依然是最“均匀”的分布（最大熵），但它满足了新的已知条件。

在这两个例子中，“最不偏”指的是我们没有对骰子引入任何额外假设，只利用了现有的限制条件。

4. 数学上的解释

最大熵分布是通过以下优化问题定义的：

max⁡P(x) H(P)=−∑xP(x)log⁡P(x)\max_{P(x)} \; H(P) = - \sum_x P(x) \log P(x)P(x)maxH(P)=−x∑P(x)logP(x)

约束条件：

∑xP(x)=1\sum_x P(x) = 1∑xP(x)=1（概率分布的归一性）
其他已知的限制条件（例如期望值、方差等）

“最不偏”意味着：

在给定的约束条件下，我们选择熵 H(P)H(P)H(P) 最大的分布，因为它保留了最大的信息不确定性，没有对系统进行额外的调整或偏向。

5. “最不偏”与“偏”的对比

为了更直观地理解，可以想象以下情况：

最不偏（最大熵）：假设我们完全不了解某系统的偏向性，只知道一些基本约束条件（如总和为1）。最大熵分布在这些条件下分布最均匀，代表我们对系统的中立态度。
有偏（非最大熵）：如果我们引入额外的假设，比如“某些结果更常见”或“特定事件发生的概率更高”，那么获得的分布将偏向某些特定值，其熵也会低于最大值。

总结

“最不偏”是指在给定限制条件下，不偏向任何未被明确指定的可能性，保持对未知信息的客观性和中立。最大熵分布反映了这种不偏性，因为它在所有满足约束的分布中保留了最大的“不确定性”，即没有人为地引入额外的信息或假设。

详细解释最大熵相关概念

GPT-4o

Poe

最大熵的相关概念详解

最大熵原理（Maximum Entropy Principle, MEP）是一种基于概率分布的理论方法，广泛应用于统计力学、信息论、机器学习、自适应建模等领域。最大熵原理的核心思想是：在约束条件下选择熵最大的概率分布，因为它是最符合现有信息且最不偏的分布。

以下从多个角度详细解释最大熵及其相关概念。

1. 熵的定义

1.1 信息熵的定义

信息熵（Entropy）是由克劳德·香农（Claude Shannon）在1948年提出的，用于衡量一个概率分布的不确定性或信息量：

H(P)=−∑iP(xi)log⁡P(xi)H(P) = -\sum_{i} P(x_i) \log P(x_i)H(P)=−i∑P(xi)logP(xi)

其中：

P(xi)P(x_i)P(xi)：随机变量 XXX 取值为 xix_ixi 的概率；
熵 H(P)H(P)H(P)：概率分布 P 的熵；
log⁡\loglog：通常以 2 为底（单位为比特）或以 eee 为底（单位为奈特）。

直观解释：

当所有事件的概率均匀（如均匀分布）时，熵最大，表示系统的不确定性最高；
当一个事件的概率为 1（完全确定），其他事件的概率为 0 时，熵最小（为 0），表示没有不确定性。

1.2 最大熵的定义

最大熵是指在满足已知条件的情况下，找到熵最大的概率分布。熵最大化代表在现有信息之外，不引入任何额外的假设。

2. 最大熵原理

2.1 核心思想

最大熵原理是由埃德温·杰恩斯（Edwin Jaynes）提出的，其核心思想是：在所有满足约束条件的概率分布中，选择熵最大的分布，因为它最符合现有信息且最不偏向任何未知信息。

2.2 数学形式

最大熵原理可以表示为一个优化问题：

max⁡P(x) H(P)=−∑xP(x)log⁡P(x)\max_{P(x)} \; H(P) = -\sum_x P(x) \log P(x)P(x)maxH(P)=−x∑P(x)logP(x)

约束条件：

概率分布的归一性：
∑xP(x)=1\sum_x P(x) = 1x∑P(x)=1
其他已知信息（约束条件）：
对某些期望值或统计量的约束，比如
E[fi(x)]=∑xP(x)fi(x)=Ci\mathbb{E}[f_i(x)] = \sum_x P(x) f_i(x) = C_iE[fi(x)]=x∑P(x)fi(x)=Ci
其中 f_i(x)fi(x) 是已知函数，CiC_iCi 是对应的约束值。

传统的最大熵问题通过 拉格朗日乘子法 解决。目标是最大化熵 H(P)H(P)H(P)，同时满足约束条件。

3. 最大熵分布的推导与例子

3.1 均匀分布

无额外约束条件：
如果仅有归一性约束：

∑xP(x)=1\sum_x P(x) = 1x∑P(x)=1

则最大熵分布是均匀分布：

P(x)=1N,∀xP(x) = \frac{1}{N}, \quad \forall xP(x)=N1,∀x

其中 NNN 是可能取值的数量。

解释：均匀分布是熵最大的分布，因为它对所有可能结果一视同仁，没有偏向任何特定值。

3.2 指数分布

已知期望值：
如果我们知道随机变量 XXX 的期望值 E[X]=μ\mathbb{E}[X] = \muE[X]=μ，则最大熵分布是指数分布：

P(x)=1Ze−λxP(x) = \frac{1}{Z} e^{-\lambda x}P(x)=Z1e−λx

其中：

λ\lambdaλ 是通过约束条件 E[X]=μ\mathbb{E}[X] = \muE[X]=μ 确定的拉格朗日乘子；
Z=∑xe−λxZ = \sum_x e^{-\lambda x}Z=∑xe−λx 是归一化因子（分布的总概率为 1）。

3.3 正态分布

已知均值和方差：
如果我们知道随机变量 XXX 的均值 μ\muμ 和方差 σ2\sigma^2σ2，则最大熵分布是正态分布：

P(x)=12πσ2e−(x−μ)22σ2P(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}P(x)=2πσ21e−2σ2(x−μ)2

解释：正态分布在所有满足指定均值和方差的分布中具有最大熵，因为它对未知信息保持最大程度的中立性。

4. 最大熵的性质

4.1 熵的物理意义

在统计力学中，熵表示系统的微观状态数量（或无序度）。最大熵分布对应系统的“平衡态”，即达到热力学平衡时，系统的状态分布具有最大熵。

4.2 最大熵与信息论

在信息论中，最大熵原则意味着在已知约束下，选择最不确定的分布。这样可以最大程度地保留信息，避免引入任何偏见。

4.3 最大熵与概率分布

最大熵分布是满足已知约束的概率分布中最均匀的分布。它的形式由约束条件决定：

没有其他约束：均匀分布；
已知期望值：指数分布；
已知均值和方差：正态分布；
已知特定函数的期望：拉普拉斯分布或其他特殊分布。

5. 最大熵在不同领域的应用

5.1 统计力学

在统计力学中，最大熵原理用于推导系统的平衡态分布。例如：

玻尔兹曼分布：通过最大化熵可以推导出热力学系统中粒子能量的分布。

5.2 信息论

在信息论中，最大熵原理用于编码理论和数据压缩：

熵表示最小的平均编码长度；
最大熵分布用于设计最优的编码方法。

5.3 机器学习

在机器学习中，最大熵模型是一种常用的分类器，特别适用于逻辑回归和自然语言处理（如条件随机场）。
最大熵模型假设：在满足观察数据的条件下，预测的概率分布应具有最大熵，以避免过拟合。

5.4 生态学

在生态学中，最大熵模型（MaxEnt）用于预测物种分布。通过已有的环境和物种信息，找到符合已知条件的最大熵分布，预测物种最可能的分布区域。

6. 最大熵与其他原则的对比

原则	核心思想	对比最大熵
最小方差原则	在约束条件下选择方差最小的分布，强调稳定性	最大熵更注重不确定性，最小方差更注重稳定性
最大似然估计	选择使观测数据概率最大的模型	最大熵在数据不足时更为稳健
贝叶斯推断	利用先验分布和数据计算后验概率	最大熵可以被看作一种选择先验分布的原则
最小信息偏差原则	在已有分布基础上尽量少调整分布以满足约束条件（KL散度最小化）	最大熵关注无先验分布时的概率分布选择

总结

最大熵原理是一种强大的方法论，用于在不确定性中做出合理决策。其核心思想是：仅利用已知信息，不偏向任何未知信息，保持中立和客观性。

数学上，它是一个约束优化问题；
物理上，它描述了系统的平衡态；
信息论上，它量化了系统的最大不确定性；
应用上，它被用于统计推断、机器学习、热力学等多个领域。

最大熵的强大之处在于它的普适性，能够在不同的约束条件下，适应不同的应用场景。

熵的热力学定义

[编辑]

鲁道夫·克劳修斯——最早提出“熵”这个概念的物理学家

熵的概念是由德国物理学家克劳修斯于1865年所提出。克氏定义一个热力学系统中熵的增减为：在一个可逆过程里，系统在恒温的情况下得到或失去热量（Q

$Q$

），并可以公式表示为：

ΔS=QT

$\Delta S={\frac {Q}{T}}$

克劳修斯对S予以“熵”（希腊语：εντροπια，entropia；德语：entropie；英语：entropy）一名，希腊语源意为“内向”，亦即“一个系统不受外部干扰时往内部最稳定状态发展的特性”[注 2]。与熵相反的概念为“反熵”（希腊语：εκτροπια，ektropia，源意“外向性”；德语：Ektropie；英语：extropy）。

1923年，德国科学家普朗克到中国讲学用到“entropy”这个词，胡刚复教授翻译时灵机一动，把“商”字加火旁来意译“entropy”这个字，创造了“熵”字（音读：shāng），因为熵是Q

$Q$

（热量）除以 T

$T$

（温度）的商数[3]。

值得注意的是，这条公式只牵涉到熵的增减，即熵一词只是定义为一个添加的常数。

熵的增减与热机

[编辑]

参见：热机

此章节需要提供更多来源，否则内容可能无法查证。 (2014年10月19日)

克劳修斯认为熵是在学习可逆及不可逆热力学转换时的一个重要元素。

热力学转换是指一个系统中热力学属性的转换，例如温度及体积。当一个转换被界定为可逆时，即指在转换的每一极短的步骤时，系统保持非常接近平衡的状态，称为“准静态过程”。否则，该转换即是不可逆的。例如，在一含活塞的管中的气体，其体积可以因为活塞移动而改变。可逆性体积转变是指在进行得极其慢的步骤中，气体的密度经常保持均一。不可逆性体积转变即指在快速的体积转换中，由于太快改变体积所造成的压力波，并造成不稳定状态。无耗散的准静态过程为可逆过程[4]。

热机是一种可以进行一连串转换而最终能回复开始状态的热力学系统。这一进程被称为一个循环。在某些转换当中，热力机可能会与一种被称之为高温热库的大型系统交换热能，并因为吸收或释放一定的热量而保持固定温度。一个循环所造的结果包括：

系统对外所做的功（等于外界对系统做功的相反数）
高温热库之间的热能传递

基于能量守恒定律，高温热库所失的热能正等于热力机所做的功，加上低温热库所获得的热能。

当循环中的每个过程皆是可逆时，该循环是可逆的。这表示它可以反向操作，即热的传递可以相反方向进行，恢复到初始状态而不对外界产生影响，以及所做的功可以正负号调转。最简单的可逆性循环是在两个高温热库之间传递热能的卡诺循环。

在热力学中，在下列公式中定义使用绝对温度，设想有两个热源，一个卡诺循环从第一个热源中抽取一定量的热Q′

$Q'$

，相应的温度为T

$T$

和T′

$T'$

，则：

QT=Q′T′

${\frac {Q}{T}}={\frac {Q'}{T'}}$

现在设想一个任意热机的循环，在系统中从N个热源中交换一系列的热Q1,Q2...QN,

$Q_{1},Q_{2}...Q_{N},$

，并有相应的温度T1,T2,...TN,

$T_{1},T_{2},...T_{N},$

设系统接受的热为正量，系统放出的热为负量，可以知道：

∑i=1NQiTi≤0

$\sum _{i=1}^{N}{\frac {Q_{i}}{T_{i}}}\leq 0$

如果循环向反方向运行，公式依然成立。

求证，有N个热源的卡诺循环中引入一个有任意温度T0

$T_{0}$

的附加热源，如果从T0

$T_{0}$

热源中，通过j

$j$

次循环，向Tj

$T_{j}$

热源输送热Qj

$Q_{j}$

，从前面定义绝对温度的式中可以得出，从T0

$T_{0}$

热源通过j

$j$

次循环输送的热为：

Q0,j=T0QjTJ

$Q_{0,j}=T_{0}{\frac {Q_{j}}{T_{J}}}$

现在考虑任意热机中N个卡诺循环中的一个循环，在循环过程结束时，在T1,...,TN

$T_{1},...,T_{N}$

个热源中，每个热源都没有纯热损失，因为热机抽取的每一份热都被循环过程弥补回来。所以结果是（i）热机作出一定量的功，（ii）从T0

$T_{0}$

热源中抽取总量为下式的热：

Q0=∑j=1NQ0,j=T0∑j=1NQjTj

$Q_{0}=\sum _{j=1}^{N}Q_{0,j}=T_{0}\sum _{j=1}^{N}{\frac {Q_{j}}{T_{j}}}$

如果这个热量是正值，这个过程就成为第二类永动机，这是违反热力学第二定律的，所以正如下式所列：

∑i=1NQiTi≥0

$\sum _{i=1}^{N}{\frac {Q_{i}}{T_{i}}}\geq 0$

只有当热机是可逆的时，式两边才能相等，上式自变量可以一直重复循环下去。

要注意的是，Tj

$T_{j}$

代表系统接触的温度，而不是系统本身的温度。如果循环不是可逆的，热量总是从高温向低温处流动。所以：

QjTj≤QjT

${\frac {Q_{j}}{T_{j}}}\leq {\frac {Q_{j}}{T}}$

这里T代表当系统和热源有热接触时系统的温度。

然而，如果循环是可逆的，系统总是趋向平衡，所以系统的温度一定要和它接触的热源一致。在这种情况下，可以用T

$T$

代替所有的Tj

$T_{j}$

，在这种特定情况下，一个可逆循环可以持续输送热，

∮δQT≡∮dS=0

$\oint {\frac {\delta Q}{T}}\equiv \oint dS=0$

（可逆循环）

这时，对整个循环进行积分，T

$T$

是系统所有步骤的温度。

熵作为状态函数

[编辑]

现在，不仅仅在循环中，而是从任何热力学过程中，可以从熵的变化推断出一个重要的结论。首先，想象一个可逆过程，如果将系统从一个平衡状态A转移到另一个平衡状态B。假如再经过一个任何可逆过程将系统带回状态A，结果是熵的绝对变化等于零。这意味着在第一个过程中，熵的变化仅仅取决于初始与终结状态.由此可以定义一个系统的任何平衡状态的熵。选择一个参照状态R，定义它的熵为SR

$S_{R}$

，任何平衡状态X的熵为：

SX=SR+∫RXδQT

$S_{X}=S_{R}+\int _{R}^{X}{\frac {\delta Q}{T}}$

因为这个积分式与热转移过程无关，所以当作为熵的定义。

现在考虑不可逆过程，很明显，在两个平衡状态之间热传递造成熵的改变为：

ΔS≥∫δQT

$\Delta S\geq \int {\frac {\delta Q}{T}}$

如果过程是可逆的，此公式仍然有效。

注意，如果σQ=0

$\sigma Q=0$

，那么ΔS≥0

$\Delta S\geq 0$

。热力学第二定律的一种表述方式正是：一个绝热系统的全部熵不会自动减少。

设想一个绝热系统但和环境保持机械联系，和环境之间不是处于机械平衡状态，可以对环境做功，或接受环境对它做功，如设想在一个密封、绝热的活塞室内，如果室内气体的压力和室外不同，活塞会膨胀或收缩，就会做功。上述结论表明在这种情况下，这个系统的熵会增加（理论上可以持续增加，但实际不会。）在一定的环境下，系统的熵存在一个极大值，这时熵相当于“稳定平衡状态”，也就是说不可能和其他平衡状态产生可使熵降低的传热过程，一旦系统达到最高熵状态，不可能再作任何功。

熵的统计学定义，玻尔兹曼原理

[编辑]

主条目：熵_(统计物理学)

1877年，玻尔兹曼发现单一系统中的熵跟构成热力学性质的微观状态数量相关。可以考虑情况如：一个容器内的理想气体。微观状态可以以每个组成的原子的位置及动量予以表达。为了一致性起见，只需考虑包含以下条件的微观状态：（i）所有粒子的位置皆在容器的体积范围内；（ii）所有原子的动能总和等于该气体的总能量值。玻尔兹曼并假设：

S=k(ln⁡Ω)

$S=k(\ln \Omega )$

公式中的k

$k$

是玻尔兹曼常数，Ω

$\Omega$

则为该宏观状态中所包含之微观状态数量。这个被称为玻尔兹曼原理的假定是统计力学的基础。统计力学则以构成部分的统计行为来描述热力学系统。玻尔兹曼原理指出系统中的微观特性（Ω

$\Omega$

）与其热力学特性（S

$S$

）的关系。

根据玻尔兹曼的定义，熵是一则关于状态的函数。并且因为Ω

$\Omega$

是一个非零自然数（1,2,3,...

$1,2,3,...$

），熵必定是个非负数（这是对数的性质）。

熵作为混乱程度的度量

[编辑]

可以看出Ω

$\Omega$

是一个系统混乱程度的度量，这是有道理的，因为作为有规律的系统，只有有限的几种构型，而混乱的系统可以有无限多个构型。例如，设想有一组10个硬币，每一个硬币有两面，掷硬币时得到最有规律的状态是10个都是正面或10个都是反面，这两种状态都只有一种构型（排列）。反之，如果是最混乱的情况，有5个正面5个反面，排列构型可以有C510=252

$C_{5}^{10}=252$

种。（参见组合数学）

根据熵的统计学定义，热力学第二定律说明一个孤立系统的倾向于增加混乱程度，根据上述硬币的例子可以明白，每一分钟我们随便掷一个硬币，经过一段长时间后，我们检查一下硬币，有“可能”10个都是正面或都是反面，但是最大的可能性是正面和反面的数量相等。

混乱程度倾向于增加的观念被许多人接受，但容易引起一些错误认识，最主要的是必须明白ΔS≥0

$\Delta S\geq 0$

只能用于“孤立”系统，值得注意的是地球并不是一个孤立系统，因为地球不断地从太阳以太阳光的形式接收能量。但一般认为宇宙是一个孤立系统，即宇宙的混乱程度在不断地增加，可以推测出宇宙最终将达到“热寂”状态，因为（所有恒星）都在以同样方式放散热能，能源将会枯竭，再没有任何可以做功的能源了。但这一观点并没有得到证明。然而有些人认为，宇宙是个开放的、无限的系统，不能把从有限的时空尺度范围内的“熵增”推广到广袤的宇宙中，因此热寂说不正确。