熵的基本介绍及相关公式
1. 距离度量
设 X = ( x 1 , x 2 , ⋯ , x n ) X=(x_{1},x_{2},\cdots ,x_{n}) X=(x1,x2,⋯,xn), Y = ( y 1 , y 2 , ⋯ , y n ) Y=(y_{1},y_{2},\cdots ,y_{n}) Y=(y1,y2,⋯,yn), X X X与 Y Y Y之间的距离或相似性可以通过不同的公式计算得到。
1.1 闵氏距离(闵可夫斯基距离)—— Minkowski Distance
闵氏距离是欧氏空间中的一种测度,闵氏距离的定义式为:
d ( x , y ) : = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p , 其中 p > = 1 d(x,y):=(\sum_{i=1}^{n}{|x_i-y_i|^p})^{\frac{1}{p}}, 其中p>=1 d(x,y):=(i=1∑n∣xi−yi∣p)p1,其中p>=1
闵可夫斯基距离公式中:
- (1) 当 p = 1 p=1 p=1时,即为曼哈顿距离;
- (2) 当 p = 2 p=2 p=2时,即为欧氏距离;注:只有欧式距离具有平移不变性;
- (3) 当 p = ∞ p=\infty p=∞时,即为切比雪夫距离;
切氏距离 = > 欧氏距离 = > 绝对距离 切氏距离=>欧氏距离=>绝对距离 切氏距离=>欧氏距离=>绝对距离
1.1.1 曼哈顿距离 / 市区距离 / 绝对距离(Manhattan Distance)\ 路径
曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所创词汇 ,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和。在西洋棋里,车是以曼哈顿距离来计算棋盘格上的距离。如图所示曼哈顿距离红、蓝与黄线分别表示所有曼哈顿距离都拥有一样长度(12),而绿线表示欧几里德距离有 6 × 2 ≈ 8.48 6×\sqrt{2} ≈ 8.48 6×2≈8.48的长度。
- n维空间的曼哈顿距离计算公式为:
d ( x , y ) : = ∑ i = 1 n ∣ x i − y i ∣ d(x,y):=\sum_{i=1}^{n}{|x_i-y_i|} d(x,y):=i=1∑n∣xi−yi∣
1.1.2 欧氏距离 / 欧几里得距离(Euclidean Distance) \ 空间
欧几里得度量(euclidean metric)早期称毕达哥拉斯度量,指在m维空间中两个点之间的真实距离(即欧几里得空间中两点间的直线距离),或向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 相关联的范数称为欧几里得范数。
- n维空间的欧氏距离计算公式为:
d ( x , y ) : = ∑ i = 1 n ( x i − y i ) 2 d(x,y):=\sqrt{\sum_{i=1}^{n}{(x_i-y_i)^2}} d(x,y):=i=1∑n(xi−yi)2
1.1.3 切比雪夫距离(Chebyshev distance)\ 国际象棋
切比雪夫距离,或称 L ∞ L\infty L∞度量,是向量空间中的一种度量。二个点之间的距离定义是其各坐标数值差绝对值的最大值。切比雪夫距离是由一致范数(uniform norm)(或称为上确界范数)所衍生的度量,也是超凸度量(injective metric space)的一种。
- n维空间的切比雪夫距离定义为:
d c h e b y s h e v ( x , y ) : = max i ∣ x i − y i ∣ = lim p − > ∞ ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p d_{chebyshev}(x,y):=\max_{i}{|x_i-y_i|}=\lim_{p->\infty}{(\sum_{i=1}^{n}{|x_i-y_i|^p})^\frac{1}{p}} dchebyshev(x,y):=imax∣xi−yi∣=p−>∞lim(i=1∑n∣xi−yi∣p)p1
对一个网格(例如棋盘),和一点的切比雪夫距离为1的点为此点的Moore型邻居(Moore neighborhood)。在棋盘上,使用的是离散的切比雪夫距离,以任意一个位置为准,和此点切比雪夫距离为r的所有位置也会形成一正方形。
1.1.4 马氏距离(Mahalanobis distance)\ 排除量纲和依存
设
n
n
n维矢量
x
i
x_i
xi,
x
j
x_j
xj, 是矢量集
{
x
1
,
x
2
,
⋯
,
x
m
}
\{x_1, x_2 ,\cdots, x_m\}
{x1,x2,⋯,xm}中的两个矢量,他们马氏距离
d
d
d定义为:
d
2
(
x
i
,
x
j
)
=
(
x
i
−
x
j
)
T
V
−
1
(
x
i
−
x
j
)
d^{2}(x_i, x_j) = (x_i - x_j)^{T} V^{-1} (x_i - x_j)
d2(xi,xj)=(xi−xj)TV−1(xi−xj)
式中:
V
=
∑
i
=
1
m
(
x
i
−
x
ˉ
)
(
x
i
−
x
ˉ
)
T
m
−
1
V=\frac{ \sum^{m}_{i=1}{ (x_i-\bar x) (x_i-\bar x)^T } }{m-1}
V=m−1∑i=1m(xi−xˉ)(xi−xˉ)T
x
ˉ
=
∑
i
=
1
m
x
i
m
\bar x=\frac{ \sum^{m}_{i=1}{ x_i } }{m}
xˉ=m∑i=1mxi
若x,y是从期望矢量为
μ
\mu
μ、协方差矩阵
∑
\sum
∑的母体G中抽取的两个样本。他们之间的马氏距离为:
d
2
(
x
,
y
)
=
(
x
−
y
)
T
∑
−
1
(
x
−
y
)
d^{2}(x,y)=(x-y)^{T} {\sum} ^{-1} (x-y)
d2(x,y)=(x−y)T∑−1(x−y)
将x和y看作两个数据集中的样本时,设C是他们的协方差矩阵,则他们的买时距离为:
d
2
=
(
x
,
y
)
=
(
x
−
y
)
T
C
−
1
(
x
−
y
)
d^{2} = (x,y)=(x-y)^{T}C^{-1}(x-y)
d2=(x,y)=(x−y)TC−1(x−y)
当 ∑ {\sum} ∑, V V V, C C C为单位矩阵时,马氏距离和欧氏距离是等价的。
马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响(即马氏距离实现了排除量纲和依存),并且是平移不变的;另外,由于 V V V的含义是这个矢量集的样本协方差阵,所以马氏距离对特征的相关性也做了处理。
1.1.5 Camberra距离(Lance距离、Willims距离)
d ( x , y ) = ∑ i = 1 n ∣ x i − y i ∣ ∣ x i + y i ∣ ( x i , y i > = 0 , x i + y i ≠ 0 ) d(x,y)=\sum^{n}_{i=1}{\frac{ |x_i-y_i| }{ |x_i + y_i | }} (x_i,y_i>=0, x_i + y_i \neq 0) d(x,y)=i=1∑n∣xi+yi∣∣xi−yi∣(xi,yi>=0,xi+yi=0)
1.1.6 归一化距离
d ( x , y ) = ∑ i = 1 n ∣ ∣ x − y ∣ ∣ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ d(x,y)=\sum^{n}_{i=1}{\frac{||x-y||}{||x||+||y||}} d(x,y)=i=1∑n∣∣x∣∣+∣∣y∣∣∣∣x−y∣∣
1.2 相似测度
1.2.1 角度相似系数(夹角余弦)
1.2.2 相关系数
1.2.3 指数相似系数
1.3 匹配测度
{ a = ∑ i x i y i b = ∑ i ( 1 − x i ) y i c = ∑ i x i ( 1 − y i ) e = ∑ i ( 1 − y i ) ( 1 − y i ) \begin{cases} a=\sum_{i}{x_iy_i}\\ b=\sum_{i}{(1-x_i)y_i}\\ c=\sum_{i}{x_i(1-y_i)}\\ e=\sum_{i}{(1-y_i)(1-y_i)}\\ \end{cases} ⎩ ⎨ ⎧a=∑ixiyib=∑i(1−xi)yic=∑ixi(1−yi)e=∑i(1−yi)(1−yi)
1.3.1 Tanimoto测度
s ( x , y ) = a a + b + c = x T y x T x + y T y − x T y s(x,y) = \frac{a}{a+b+c} = \frac{x^Ty}{x^Tx+y^Ty-x^Ty} s(x,y)=a+b+ca=xTx+yTy−xTyxTy
向量中6个元素,5个不一样,一个相同,则为 1 5 \frac{1}{5} 51。
1.3.2 Rao 测度
s ( x , y ) = a a + b + c + e = x T y n s(x,y) = \frac{a}{a+b+c+e} = \frac{x^Ty}{n} s(x,y)=a+b+c+ea=nxTy
1.3.3 简单匹配系数
m ( x , y ) = a + e n m(x,y) = \frac{a+e}{n} m(x,y)=na+e
1.3.4 Dice 系数
m ( x , y ) = 2 a 2 a + b + c = 2 x T y x T x + y T y m(x,y) = \frac{2a}{2a+b+c} = \frac{2x^Ty}{x^Tx + y^Ty } m(x,y)=2a+b+c2a=xTx+yTy2xTy
1.3.5 Kulzinsky 系数
m
(
x
,
y
)
=
a
b
+
c
=
x
T
y
x
T
x
+
y
T
y
−
2
x
T
y
m(x,y) = \frac{a}{b+c} = \frac{x^Ty}{x^Tx + y^Ty - 2x^Ty}
m(x,y)=b+ca=xTx+yTy−2xTyxTy
距离测度是相异测度,其与相似测度可以通过一定的函数关系相互转换。
1.2 加权(标准化欧氏距离)
欧式距离尽管应用较为普遍,但仅适用于样本向量的各个分量度量标准统一的情形。对大部分统计问题来说,由于样本分量的取值对欧氏距离的贡献是相同的,往往不效果一般。特别是当各分量的波动范围量纲差距较大时,会引起各分量对总体的贡献差别较大,甚至某一坐标的贡献几乎可以忽略不计,当各个分量为不同性质的量时,欧式距离的
大小与样本分量的单位有关。
例如某维向量的取值范围为 [0,1] ,而另一维向量的取值范围为 [0,100] ,前者变量的波动范围对距离计算的影响很小,甚至可以忽略不计。在这种情况下,合理的方法应该是对各个坐标分量加权,使变化较大的坐标比变化较小的坐标有较小的权重系数,将样本的不同属性之间的差异量化到同一个区间。在某些特殊应用时,也可以对样本分量的不同属性分别赋予不同的权重,从而取得更理想的计算效果。
标准化欧氏距离是针对简单欧氏距离的缺点而提出的一种改进方案,当向量之间的各维度的尺度差别较大时,使用简单欧氏距离使得各向量对最终分类结果产生较大的影响。标准化欧氏距离的思想是,将数据各维分量的分布进行归一化处理,将数据的各个分量均标准化到均值、方差。假设样本集 S 的均值为 m ,标准差为 sd ,则将特征 S 标准化为均值为零方差为 1的变量。因此,两个归一化后的
n
n
n维向量
A
(
x
1
,
x
2
,
…
,
x
n
)
A(x_1, x_2, … ,x_n )
A(x1,x2,…,xn)、
B
(
y
1
,
y
2
,
…
,
y
n
)
B(y_1, y_2, … , y_n)
B(y1,y2,…,yn)间的标准化欧氏距离可以表示为:
d
(
x
,
y
)
:
=
∑
i
=
1
n
(
y
i
−
x
i
)
2
s
i
d(x,y):=\sqrt{\sum_{i=1}^{n}{\frac{(y_i-x_i)^2}{s_i}}}
d(x,y):=i=1∑nsi(yi−xi)2
1.3 向量差距(夹角余弦距离)
1.4 分布的混乱程度或分散程度(熵)
熵的基本介绍及相关公式
E
n
t
r
o
p
y
=
∑
−
p
i
log
(
p
i
)
p
i
=
p
r
o
b
a
b
i
l
i
t
y
o
f
c
l
a
s
s
i
Entropy=\sum{-p_i\log(p_i)} \\p_i=probability\ of\ class\ i
Entropy=∑−pilog(pi)pi=probability of class i
e.g. :
−
1
2
log
1
2
×
2
=
−
log
1
2
=
1
-\frac{1}{2} \log{\frac{1}{2}} \times 2 =-\log{\frac{1}{2}}=1
−21log21×2=−log21=1
信息增益: I G = E ( p a r e n t ) − ∑ w i E ( c h i l d ) IG=E(parent)-\sum{w_{i}E(child)} IG=E(parent)−∑wiE(child)
w i w_i wi是子节点相对父节点的大小;
1.信息熵
H
(
X
)
=
−
∑
i
n
p
(
x
i
)
log
p
(
x
i
)
=
∑
i
P
(
X
i
)
l
o
g
2
1
P
(
X
i
)
H(X)=-\sum_{i}^{n}{p(x_i)\log{p(x_i)}}=\sum_{i}{P(X_{i})log_{2}{\frac{1}{P(X_i)}}}
H(X)=−i∑np(xi)logp(xi)=i∑P(Xi)log2P(Xi)1
可转换为:
H
(
X
)
=
−
∑
i
n
p
(
X
i
)
log
b
p
(
X
i
)
=
∑
i
n
p
(
X
i
)
log
2
1
p
(
X
i
)
=
E
(
log
2
(
1
P
(
X
i
)
)
)
H(X)=-\sum_{i}^{n} { p(X_i) \log_{b} { p(X_i) } }=\sum_{i}^{n}{p(X_i)\log_{2} { \frac{1}{p(X_i)} }} = E(\log_2(\frac{1}{P(X_i)}))
H(X)=−i∑np(Xi)logbp(Xi)=i∑np(Xi)log2p(Xi)1=E(log2(P(Xi)1))
表示2的多少次幂等于
P
(
X
i
)
P(X_i)
P(Xi)分之一:
2
?
=
1
P
(
X
i
)
2^{?}=\frac{1}{P(X_i)}
2?=P(Xi)1。
是转换到二进制下的表示复杂度
期望的加权平衡如图[图1]所示。
l o g 2 1 p ( X i ) = > b i t ( b i n a r y d i g i t ) log_{2} { \frac{1}{p(X_i)} } => bit (binary \ digit) log2p(Xi)1=>bit(binary digit)
l o g e 1 p ( X i ) = > n a t ( n a t u r a l u n i t ) log_{e} { \frac{1}{p(X_i)} } => nat (natural \ unit) logep(Xi)1=>nat(natural unit)
l o g 10 1 p ( X i ) = > d i t ( d e c i m a l d i g i t ) log_{10} { \frac{1}{p(X_i)} } => dit (decimal \ digit) log10p(Xi)1=>dit(decimal digit)
2.联合熵
H ( X , Y ) = − ∑ x ∑ y p ( x , y ) log p ( x , y ) H(X,Y)=-\sum_{x}{\sum_{y}{p(x,y)\log{p(x,y)}}} H(X,Y)=−x∑y∑p(x,y)logp(x,y)
3.条件熵
H ( Y ∣ X ) = − ∑ x ∑ y p ( x , y ) log p ( y ∣ x ) H(Y|X)=-\sum_{x}{\sum_{y}{p(x,y)\log{p(y|x)}}} H(Y∣X)=−x∑y∑p(x,y)logp(y∣x)
4.互信熵:(信息增益)
I ( X , Y ) = ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) I(X,Y)=\sum_{x,y}{p(x,y)\log{ \frac{ p(x,y) } { p(x)p(y) } }} I(X,Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)
5.交叉熵
常用于分类问题的损失函数。
L ( p , q ) = − ∑ i p ( x i ) log q ( x i ) = ∑ i p ( x i ) ( − log q ( x i ) ) = ∑ i p ( x i ) log 1 q ( x i ) > ∑ i p ( x i ) log 1 p ( x i ) L(p,q)=-\sum_{i}{ p(x_i) \log{q(x_i)} }=\sum_{i}{ p(x_i) (-\log{q(x_i)}) }=\sum_{i}{ p(x_i) \log{\frac{1}{q(x_i)}} }>\sum_{i}{ p(x_i) \log{\frac{1}{p(x_i)}} } L(p,q)=−i∑p(xi)logq(xi)=i∑p(xi)(−logq(xi))=i∑p(xi)logq(xi)1>i∑p(xi)logp(xi)1
最优编码长度;
q
(
x
i
)
q(x_i)
q(xi)信息量;平均编码长度;
(1)
p
(
x
i
)
>
q
(
x
i
)
↓
p(x_i) > q(x_i)\downarrow
p(xi)>q(xi)↓ 则
(
1
q
(
x
i
)
)
↑
(\frac{1}{q(x_i)})\uparrow
(q(xi)1)↑ 平均编码长度增加。
(2)
p
(
x
i
)
<
q
(
x
i
)
↑
p(x_i) < q(x_i)\uparrow
p(xi)<q(xi)↑ 则
(
1
q
(
x
i
)
)
↓
(\frac{1}{q(x_i)})\downarrow
(q(xi)1)↓ 平均编码长度减少。
编码长度边长会导致平均的编码长度增加。
反向交叉熵(reverse cross entropy):
L
(
q
,
p
)
=
−
∑
i
q
(
x
i
)
log
p
(
x
i
)
L(q,p)=-\sum_{i}{ q(x_i) \log{p(x_i)} }
L(q,p)=−i∑q(xi)logp(xi)
真实分布 p p p中不存在 p ( x i ) = 0 p(x_i)=0 p(xi)=0、 1 p ( x i ) → ∞ \frac{1}{p(x_i)}\rightarrow\infty p(xi)1→∞。
衡量分布的差异最小化交叉熵,让它尽可能地接近
p
p
p的熵。
预测分布
q
接近
→
真实分布
p
预测分布q\underrightarrow{ 接近 }真实分布p
预测分布q接近真实分布p
6.相对熵:(KL离散度)
D K L ( p ∣ ∣ q ) = ∑ i p ( x i ) log p ( x i ) q ( x i ) D_{KL}(p||q)=\sum_{i}{p(x_i)\log{ \frac{ p(x_i) } { q(x_i) } }} DKL(p∣∣q)=i∑p(xi)logq(xi)p(xi)
各类熵的关系及性质
基于概率分布的不确定性都能用熵来衡量
随机性(stochastic):结果是可知集合内样本;
不确定性(uncertainly):结果可能是未知的;
随机变量可能出现的結果是否知道