信息熵
信息量是测量不确定性的物理量,因此选择另一件事情的不确定性作为参照。参考如下的测量重量过程,
当知道了总质量,可以利用除法,计算参照物的个数 n ,但是计算信息量的时候却不能,因为,假设以抛硬币距离,抛三个硬币能形成的结构,
2
3
=
8
,
而
非
:
2
×
6
=
6
2^{3}=8,而非:2×6=6
23=8,而非:2×6=6
两者并非线性关系,而是指数关系,因此,要使用指数运算的反函数,对数运算来计算,
3
=
l
o
g
2
(
8
)
3=log_2(8)
3=log2(8)
此处有一个蕴含的前提:所有被测时间都是等概率事件(符合均匀分布) 因为参照事物本身便是两种等概率事件,
假如概率不一样,那么则要加权平均,乘以各自的发生的概率,再求和即可,
注意:
p
=
1
100
相
当
于
从
100
种
情
况
确
定
一
个
,
反
过
来
1
p
相
当
于
确
定
总
情
况
的
个
数
p=\cfrac{1}{100}相当于从100种情况确定一个,反过来\cfrac{1}{p}相当于确定总情况的个数
p=1001相当于从100种情况确定一个,反过来p1相当于确定总情况的个数
因此会有信息熵的一般化公式:
∑
p
i
l
o
g
2
(
1
p
)
\sum p_ilog_2(\cfrac{1}{p})
∑pilog2(p1)
数据是噪音与信息的混合,需要使用知识将其分离。
传递信息的媒介并不影响信息量,换成专业说法,对同一件事情接受的信息,与用于传递信息的信号形式无关。同时,需要注意,信息是相对的。接受到的信息是相对于观察者本身对事情已经了解的程度而言的。
熵用于衡量不确定性,与概率的区别在于,
概率是宏观态某件事情,微观态的某个可能的情况的确定性。
熵是宏观态某件事情,到底是哪个情况微观态情况的不确定性。
本文仅是做个笔记以便于回顾,请勿用于商业用途。
原作者的知乎链接:https://www.zhihu.com/people/YJango
原作者的哔站链接:https://space.bilibili.com/344849038?from=search&seid=4700601805166844934