来自:百度百科(http://baike.baidu.com/view/936.htm)
在信息论中,熵表示的是不确定性的量度。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为“用来消除不确定性的东西”。
熵在信息论中的定义如下: 如果有一个系统S内存在多个事件S = {E1,...,En}, 每个事件的机率分布 P = {p1, ..., pn},则每个事件本身的讯息为 Ie = − log2pi (对数以2为底,单位是位元(bit)) Ie = − lnpi (对数以e为底,单位是纳特/nats) 如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为 I_e = -/log_2 {1/over 26} = 4.7 ;而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为 I_e = -/log_2 {1/over 2500} = 11.3 整个系统的平均消息量为 H_s = /sum_{i=1}^n p_i I_e = -/sum_{i=1}^n p_i /log_2 p_i 这个平均消息量就是消息熵。因为和热力学中描述热力学熵的玻耳兹曼公式形式一样,所以也称为“熵”。 如果两个系统具有同样大的消息量,如一篇用不同文字写的同一文章,由于是所有元素消息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。 实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的讯息量越大。 I(A)度量事件A发生所提供的信息量,称之为事件A的自信息,P(A)为事件A发生的概率。如果一个随机试验有N个可能的结果或一个随机消息有N个可能值,若它们出现的概率分别为p1,p2,…,pN,则这些事件的自信息的平均值:[H=-SUM(pi*log(pi)),i=1,2…N]称为熵。 如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为 I_e = -log_2 (1/26) = 4.7 而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为 I_e = -log_2 (1/2500) = 11.3 整个系统的平均消息量为 H_s = sum_(i=1^n)p_i I_e = -sum_(i=1^n) p_i * log_2 p_i