什么是熵 (Entropy)----第一部分

.原載於數學傳播十三卷三期
.作者當時任教於美國密西根州立大學數學系

关键字:

信息理論
遍歷理論
Shannon
Kolmogorov
Lebesgue
Bernoulli
Clausius
Boltzmann
中央極限定理

在我們日常生活中,似乎經常存在看「不確定性」的問題。比方說,天氣預報員常說「明天下雨的可能性是 70%。這是我們習以為常的「不確定性」問題的一個例子。一般不確定性問題所包含「不確定」(uncertainty) 的程度可以用數學來定量地描述嗎?在多數的情況下是可以的。本世紀40年代末,由於信息理論 (information theory) 的需要而首次出現的 Shannon 熵,50年代末以解決遍歷理論 (ergodic theory) 經典問題而嶄露頭角的 Kolmogorov 熵,以及60年代中期,為研究拓樸動力系統 (topological dynamical system) 而產生的拓樸熵 (topological entropy) 等概念,都是關於不確定性的數學度量。它們在現代動力系統和遍歷理論中,扮演看十分重要的角色。在自然科學和社會科學中的應用也日趨廣泛。本文的主旨在於引導盡量多的讀者在這一引人入勝的領域中尋幽訪勝,而不必在艱深的數學語言中躑躅不前。物理、化學家們也許對他們早已熟悉的熱力學熵更覺親切。我們在最後一節也將給古典的 Boltzmann 熵作一番數學的描述。


1. Shannon 熵

設想我們有兩枚五分硬幣,一枚硬幣表面光滑,材料均勻,而另一枚硬幣則表面粗糙,奇形怪狀。我們把硬幣上有人頭的那面叫正面,另一面稱反面。然後在一個光滑的桌面上旋轉硬幣,等它停下來後,看是正面或是反面。這是一個不確定性的問題:可能是正面,可能是反面。第一枚硬幣,由於正面和反面的對稱性,正面或反面朝上的機率各為一半。但對第二枚硬幣來說,由於材料磨損,正面和反面不再對稱。可能正面朝上的機率為 70%,反面朝上的機率為 30%。 對「究竟會是正面?或會是反面?」這一不確定性問題來說, 第一枚硬幣「不確定」的程度顯然比第二枚硬幣要大了許多。 若要下賭注的話,我想還是下第二枚硬幣的正面朝上,較為保險,不是嗎? 現在假設鑄幣局的先生們別出心裁,把硬幣設計成圖1-1所示的形狀, 其上為正,其下為反,則無論我們怎樣旋轉它,最終總是正面朝上。 它「不確定」的度量應該為零-其結果在未旋轉前都已確定, 那來什麼「不」確定度呢?



圖1-1

有了這些直接的觀察,我們可以在數學上做文章了。 假設樣本空間 (Sample space) X 有 n 的基本事件 (events), 其基本事件 wi 的概率為 pii=1,2,…,n。 我們記之為 $(X ;p_1, \cdots, p_n)$。 當然,我們有基本關係式$\sum_{i=1}^{n} p_i =1, p_i \geq 0$i=1,2,…,n。 我們要定義一個函數 H 它的定義域是所有的樣本空間, 它在樣本空間 $(X;P_1,\cdots,p_n)$ 的值, 我們用 $H(p_1, \cdots, p_n)$ 來表示(X 省略掉) 我們要拿這個數來刻劃具有概率分別為 p1,p2, …, pn 的事件w1,w2,…,wn 的樣本空間的「不確定度」。 $H(p_1, \cdots, p_n)$ 若要精確地反映試驗結果的不確定度,似乎必須滿足下列三個基本條件:

(i) 對固定   n  來說, H  是   (p1,…, pn)  的連續函數: (這是數學上很基本的要求)

代替硬幣,讓我們來擲骰子。這骰子是個材料均勻各面光滑的正六邊體。 當我們將它擲到桌面上時,每個面朝上的機率都是 $\frac{1}{6}$。 究竟是那面朝上的不確定度,顯然比旋轉光滑對稱硬幣那面朝上的不確定度要大許多。 這個事實若用 H 來表達,應當是 $H(\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6})> H(\frac{1}{2},\frac{1}{2})$ 一般來說,H 應當滿足。

(ii) 若   $P_i=\frac{1}{n}$i=1,2,…, n,則對應的   $H(\frac{1}{n},\cdots,\frac{1}{n})$  應當是   n  的單調遞增函數。

現在有一筆研究經費要分配給工程系的一名教授或數學系的兩名教授之一。 假設工程系教授 A 獲得這筆經費的可能性是 $\frac{1}{2}$, 數學系教授 B 獲此經費的可能性為 $\frac{1}{3}$, 而數學系教授 C 獲此經費的可能性為 $\frac{1}{6}$ 了。 事實上,這筆經費現在在教務長那裡,他認為為了公平起見, 工程系獲此資助的可能性為 $\frac{1}{2}$, 而數學系獲此資助的可能性亦為 $\frac{1}{2}$。 工程系若獲此資助,系主任只會給教授 A,沒有其他的侯選人。 但在數學系教授獲資助的前提下,教授B 獲資助的可能性為 $\frac{2}{3}$, 而教授 C 獲資助的可能性為 $\frac{1}{3}$(見圖1-2), 這兩種「絕對不確定」和「相對不確定」分析應給出同樣的結果, 也就是說,教授 A,B,C 獲此研究費的不確定度, $H(\frac{1}{2},\frac{1}{3},\frac{1}{6})$ 應當等於教務長將它分給工程系或數學系的不確定度, $H(\frac{1}{2},\frac{1}{2})$ 加上若是分到數學系, 教授 B或教授 C 得此資助的不確定度 $H(\frac{2}{3},\frac{1}{3})$, 但這個不確定度是在此經費分到數學系的前提下。這種可能只有 $\frac{1}{2}$,因此 

\begin{displaymath}H(\frac{1}{2},\frac{1}{3},\frac{1}{6})=H(\frac{1}{2},\frac{1}{2})+\frac{1}{2}H(\frac{2}{3},\frac{1}{3})\end{displaymath}



圖1-2

將此分析一般化,我們有下列的條件:

(iii) 若某一試驗分解成多個相繼的試驗, 則原先的   H  值應為相應的各個 H  值之加權和 (weighted sum)。

下面我們來證明一個重要結論:

定理1-1:
滿足條件(i)、(ii)和(iii)的函數   H  恰好具有形式  

\begin{displaymath}H(p_1,\cdots,p_n)=-K \sum_{i=1}^{n}p_i \log{p_i} \eqno{(*)}\end{displaymath}

其中   K  為某個固定正常數。

證明:
我們分三步來證明此定理。

第一步: 記   $A(n)=H(\frac{1}{n},\frac{1}{n},\cdots,\frac{1}{n})$n  為正整數。

斷言:   A(sm)=mA(s),其中   s  和   m  均為正整數。

我們先對 s=2,m=3 用下列圖1-3所示來證明此斷言。 即我們要證明$H(\frac{1}{8},\cdots,$ $\frac{1}{8})=$ $3H(\frac{1}{2},\frac{1}{2})$。 由條件(iii)得



圖1-3


\begin{eqnarray*}&& H(\frac{1}{8},\cdots,\frac{1}{8})\\&=& H(\frac{1}{2},\fr......\frac{1}{2},\frac{1}{2}) \\&=& 3H(\frac{1}{2},\frac{1}{2}) \\\end{eqnarray*}


由歸納法易知,一般地有  

\begin{eqnarray*}&&H(\frac{1}{s^m},\cdots,\frac{1}{s^m})\\&=&H(\frac{1}{s},\c......},\cdots,\frac{1}{s}) \\&=& mH(\frac{1}{s},\cdots,\frac{1}{s})\end{eqnarray*}


這就證明了斷言。

現在設正整數 t,s,n 和 m 滿足 

\begin{displaymath}s^m \leq t^n < s^{m+1}\end{displaymath}

兩邊取對數,則有  

\begin{displaymath}m \log{s} \leq n \log{t} < (m+1)\log{s}\end{displaymath}

即  

\begin{displaymath}\frac{m}{n} \leq \frac{\log{t}}{\log{s}} \leq \frac{m}{n} +\frac{1}{n}\end{displaymath}

故有  

\begin{displaymath}\left\vert\frac{m}{n}-\frac{\log{t}}{\log{s}}\right\vert<\frac{1}{n} \eqno{(1-1)}\end{displaymath}

由條件(ii), A  是其自變量的單調遞增函數,且由我們剛證的斷言,有  

\begin{displaymath}mA(s) \leq nA(t) < (m+1)A(s)\end{displaymath}

故有  

\begin{displaymath}\left\vert\frac{m}{n}-\frac{A(t)}{A(s)}\right\vert< \frac{1}{n} \eqno{(1-2)}\end{displaymath}

由(1-1)和(1-2)式,我們得到  

\begin{displaymath}\left\vert\frac{A(t)}{A(s)}-\frac{\log{t}}{\log{s}}\right\vert<\frac{2}{n}\end{displaymath}

因為   n  可以取任意自然數,而上式左邊與   n  無關, 故有  

\begin{displaymath}\frac{A(t)}{A(s)}=\frac{\log{t}}{\log{s}}\end{displaymath}

或  

\begin{displaymath}\frac{A(t)}{\log{t}}=\frac{A(s)}{\log{s}} \equiv K\end{displaymath}

其中   K  為一固定正常數,這樣我們有  

\begin{displaymath}A(t)=K\log{t}\end{displaymath}

由此,  

\begin{displaymath}H(\frac{1}{n},\cdots,\frac{1}{n})=K\log{n}= - K \sum_{i=1}^{n}\frac{1}{n}\log{\frac{1}{n}}\end{displaymath}

即,本定理對特殊情形   $p_i=\frac{1}{n}$,   i=1,…, n  成立。

第二步:  
現在對   pi  取一般的非有理數來證明此定理, 我們對   $p_1=\frac{1}{2}$,   $p_2=\frac{1}{3}$,   $p_3=\frac{1}{6}$  來描述證明的思想,作出下列圖1-4。



圖1-4

根據條件(iii) 

\begin{eqnarray*}&&H(\frac{1}{6},\cdots,\frac{1}{6})\\&=&H(\frac{1}{2},\frac{......3}) \\&&+\frac{1}{3}H(\frac{1}{2},\frac{1}{2})+\frac{1}{6}H(1)\end{eqnarray*}


故有  

\begin{eqnarray*}&&H(\frac{1}{2},\frac{1}{3},\frac{1}{6})\\&=&H(\frac{1}{6},\......)\\&&-\frac{1}{3}H(\frac{1}{2},\frac{1}{2})-\frac{1}{6}H(1)\\\end{eqnarray*}


這樣分解的目的在於我們可用第一步證明的結果來證明第二步。

令 n1=3, n2=2, n3=1,則 

\begin{eqnarray*}p_1 &=& \frac{1}{2}=\frac{n_1}{n_1+n_2+n_3} \\p_2 &=& \frac{......n_1+n_2+n_3} \\p_3 &=& \frac{1}{6}=\frac{n_3}{n_1+n_2+n_3} \\\end{eqnarray*}


將上面結果抽象化,我們就有,  

\begin{displaymath}H(p_1,p_2,p_3)=A(\sum_{i=1}^{3}n_i)-\sum_{i=1}^{3}p_iA(n_i)\end{displaymath}

對一般情形,我們可依同法處理。設   p1,…, pr  為非負有理數, 滿足 $\sum_{i=1}^{r}p_i=1$,則存在自然數   n1,…, nr, 使得  

\begin{displaymath}p_i=\frac{n_i}{\sum_{j=1}^{r}n_j},\qquad i=1,\cdots,r\end{displaymath}

利用條件(iii),我們得到如下的等式  

\begin{displaymath}H(p_1,p_2,\cdots,p_r)=A(\sum_{i=1}^{r} n_i)-\sum_{i=1}^{r}p_i A(n_i)\end{displaymath}

由第一步證明之結果, $A(n)=K\log{n}$  代入上式有  

\begin{eqnarray*}&& H(p_1,\cdots,p_r)\\&=&K\log(\sum_{i=1}^{r}n_i)-\sum_{i=1}......ac{n_i}{\sum_{j=1}^{r}n_j}}\\&=&-K\sum_{i=1}^{r} p_i \log{p_i}\end{eqnarray*}


故我們證明了(*)式對任何滿足   $\sum_{i=1}^{r}p_i=1$  的非負有理數   p1,…, pr  成立。

第三步: 設   p1,…, pr  為任意非負實數,   $\sum_{i=1}^{r}p_i=1$。 由條件(i), H  為 p1,…, pr  的連續函數, 而任何實數均可由有理數列來任意逼近, 故第二步證明結果隱含了(*)式在實數情形之正確性。定理證畢。

由定理中(*)式可知,若對某一個 i 有 pi=1,則 $H(p_1,\cdots p_n)=0$, 這正好和我們的願望相符:pi=1 意味著對應的事件總是發生的,因而不確定度為零。

因此,我們可以給出如下關於熵的定義,這個定義的熵 (entropy),又稱為 shannon 熵。

定義1-2:
由式   $H(p_1,\cdots,p_n)=-\sum_{i=1}^{n}p_i\log_{p_i}$  定義的數,   $H(p_1, \cdots, p_n)$  稱為對應於樣本空間   $(X,p_1,\cdots,p_n)$  的熵。

在本節之初,我們已知旋轉光滑硬幣時,正面朝上有 $\frac{1}{2}$ 的機率, 反面朝上也有 $\frac{1}{2}$ 的機率,它的不確定度有最大。 既然熵是關於不確定度的一種數學度量,這就自然地要求當 $p_1=p_2=\cdots=p_n=\frac{1}{n}$ 時,H 給出最大值。 要注意的是,我們在推導 H 表達式的三個基本條件中,並無強加此項要求。現在我們要證明:這個直觀的要求,事實上可由上述三個基本條件推出結論。

命題1-3:
設   $H(p_1,\cdots,p_n)=-\sum_{i=1}^{n}p_i \log{p_i}$  則  

\begin{displaymath}H(\frac{1}{n},\cdots,\frac{1}{n})=\log{n}=\max{\{H(p_1,\cdots,p_n):p_i\geq 0,\sum_{i=1}^{n}p_i=1\}}\end{displaymath}

證明:
由初等微積分知函數   $\log{\mu}$  是 μ 的嚴格凹函數。 任給   $p_1,\cdots,p_n>0$,   $\sum_{i=1}^{n}p_i=1$。  

\begin{eqnarray*}& & H(p_1,\cdots,p_n) \\&=& -\sum_{i=1}^{n} p_i \log{p_i} \\......ac{p_i}{p_i})\\&=& \log{n} = H(\frac{1}{n},\cdots,\frac{1}{n})\end{eqnarray*}


當某一   pi  為零時,比如說   pi=0。這就好像一個只有   n-1  個基本事件的樣本空間。 由上面的推論  

\begin{displaymath}H(0,p_2,\cdots,p_n) \leq H(\frac{1}{n-1},\cdots,\frac{1}{n-1})<H(\frac{1}{n},\cdots,\frac{1}{n})\end{displaymath}

第二個不等號是由於條件(ii)。

這節定義的熵起源於信息理論的研究。是 C. Shannon 在1948年引進的。 在此基礎上,蘇聯數學家 A.N. Kolmogorov 在1958年給出了動力系統熵的概念。 從而揭開了現代遍歷理論研究的新篇章。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、该工具箱包括了混沌时间序列分析与预测的常用方法,有: (1)产生混沌时间序列(chaotic time series) Logistic映射 - \ChaosAttractors\Main_Logistic.m Henon映射 - \ChaosAttractors\Main_Henon.m Lorenz吸引子 - \ChaosAttractors\Main_Lorenz.m Duffing吸引子 - \ChaosAttractors\Main_Duffing.m Duffing2吸引子 - \ChaosAttractors\Main_Duffing2.m Rossler吸引子 - \ChaosAttractors\Main_Rossler.m Chens吸引子 - \ChaosAttractors\Main_Chens.m Ikeda吸引子 - \ChaosAttractors\Main_Ikeda.m MackeyGLass序列 - \ChaosAttractors\Main_MackeyGLass.m Quadratic序列 - \ChaosAttractors\Main_Quadratic.m (2)求时延(delay time) 自相关法 - \DelayTime_Others\Main_AutoCorrelation.m 平均位移法 - \DelayTime_Others\Main_AverageDisplacement.m (去偏)复自相关法 - \DelayTime_Others\Main_ComplexAutoCorrelation.m 互信息法 - \DelayTime_MutualInformation\Main_Mutual_Information.m (3)求嵌入维(embedding dimension) 假近邻法 - \EmbeddingDimension_FNN\Main_FNN.m Cao方法 - \EmbeddingDimension_Cao\Main_EmbeddingDimension_Cao.m (4)同时求时延与嵌入窗(delay time & embedding window) CC方法 - \C-C Method\Main_CC_Luzhenbo.m (5)求关联维(correlation dimension) GP算法 - \CorrelationDimension_GP\Main_CorrelationDimension_GP.m (6)求K(Kolmogorov Entropy) GP算法 - \KolmogorovEntropy_GP\Main_KolmogorovEntropy_GP.m STB算法 - \KolmogorovEntropy_STB\Main_KolmogorovEntropy_STB.m (7)求最大Lyapunov指数(largest Lyapunov exponent) 小数据量法 - \LargestLyapunov_Rosenstein\Main_LargestLyapunov_Rosenstein1.m \LargestLyapunov_Rosenstein\Main_LargestLyapunov_Rosenstein2.m \LargestLyapunov_Rosenstein\Main_LargestLyapunov_Rosenstein3.m \LargestLyapunov_Rosenstein\Main_LargestLyapunov_Rosenstein4.m (8)求Lyapunov指数谱(Lyapunov exponent spectrum) BBA算法 - \LyapunovSpectrum_BBA\Main_LyapunovSpectrum_BBA1.m \LyapunovSpectrum_BBA\Main_LyapunovSpectrum_BBA2.m (9)求二进制图形的盒子维(box dimension)和广义维(genealized dimension) 覆盖法 - \BoxDimension_2D\Main_BoxDimension_2D.m - \GeneralizedDimension_2D\Main_GeneralizedDimension_2D.m (10)求时间序列的盒子维(box dimension)和广义维(genealized dimension) 覆盖法 - \BoxDimension_TS\Main_BoxDimension_TS.m - \GeneralizedDimension_TS\Main_GeneralizedDimension_TS.m (11)混沌时间序列预测(chaotic time series prediction) RBF神经网络一步预测 - \Prediction_RBF\Main_RBF.m RBF神经网络多步预测 - \Prediction_RBF\Main_RBF_MultiStepPred.m Volterra级数一步预测 - \Prediction_Volterra\Main_Volterra.m Volterra级数多步预测 - \Prediction_Volterra\Main_Volterra_MultiStepPred.m (12)产生替代数据(Surrogate Data) 随机相位法 - \SurrogateData\Main_SurrogateData.m
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值