数据挖掘笔记 - 度量

 

参考文献

  1. 《数据挖掘导论》 2.4 相似性和向异性的度量
  2. 《深度学习》 3.13 信息论

度量

一、数据对象相似性和向异性的度量

(一)概述

1.定义

非正式的定义为,相似度为两个对象相似程度的度量,两个对象越相似,相似度就越高。相似度通常在0(完全不相似)到1(完全相似)之间取值。相异度(距离)表示两个对象的差异程度,相异度有事在\left [0,1 \right ]之间取值,有时相异度在\left [ 0,\infty \right )

下表是不同类型的属性的简单相似度和相异度的计算方法。

 

 

相关操作相异度相似度
定性标称=\neq、众数、熵、 列联相关、\chi^2检验d=\left \{ \begin{array}{lr} 0 \qquad if \quad x=y \\ 1 \qquad if \quad x \neq y \end{array} \right.\\s=1-d \\=\left \{ \begin{array}{lr} 1 \qquad if \quad x=y \\ 0 \qquad if \quad x \neq y \end{array} \right.
序数<\leq>\geq、中值、分位数、秩相关、游程检验、符号检验d=\frac{\left | x-y \right |}{n-1}s=1-d
数值区间+-、均值、方差、协方差、t/F检验d=\left | x-y \right |\\s=-d \quad, \\ s=\frac{1}{1+d} \quad , \\ s=e^{-d} \quad , \\ s=1-\frac{d-\textbf{\emph d}_{min}}{\textbf{\emph d}_{max}-\textbf{\emph d}_{min}}
比率\times\div、几何平均、调和平均、百分比差

2.转换

一般来说,任何单调减函数都可以用来将相异度转换到相似度(或相反)。

 

(二)数据对象之间的相异度度量

1.Minkowski 距离(闵可夫斯基距离)

闵可夫斯基距离(Minkowski distance):

d(\textbf{\emph{x}}, \textbf{\emph{y}})=\left ( \sum_{k=1}^{n} \left | x_{k}-y_{k} \right |^{r} \right )^{1/r}

r=1时,d(\textbf{\emph{x}}, \textbf{\emph{y}})是曼哈顿距离(L_{1}范数),简而言之只能沿着空间的基向量方向从起点移动至终点。

r=2时,d(\textbf{\emph{x}}, \textbf{\emph{y}})是欧几里得距离(L_{2}范数)。

r=\infty时,d(\textbf{\emph{x}}, \textbf{\emph{y}})是棋盘距离(上确界距离,切比雪夫距离,L_{max}或者L_{\infty}范数),其实就等价于d(\textbf{\emph{x}}, \textbf{\emph{y}})=\lim_{r\rightarrow \infty} \left( \sum_{k=1}^{n} \left | x_{k}-y_{k} \right |^{r} \right) = \max \left( d_{1}, d_{2}, ... , d_{n} \right),其中d_{k}= \left| x_{k}-y_{k} \right| \qquad k \in \left [ 1,n \right ]

距离(闵可夫斯基距离)满足非负性对称性三角不等式满足以上三个性质的测度称为度量

 

2.Mahalanobis距离(马氏距离)

当属性相关、具有不同的方差、并且分布近似于高斯分布时,Mahalanobis距离是有效的。

mahalannobis\left ( \textbf{\emph x} , \textbf{\emph y} \right )= \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \Sigma^{-1} \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T,其中\Sigma^{-1}是特征矩阵的协方差矩阵\Sigma的逆矩阵。

马氏距离相比欧氏距离的优势在于:1.去量纲2.去共线性

 

(三)数据对象之间的相似度度量

相似度具有以下性质:

(1)当且仅当\textbf{\emph{x}} = \textbf{\emph{y}}时,s\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) = 1\left ( 0\leq s \leq 1 \right )

(2)对于所有的xys\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) = s\left ( \textbf{\emph{y}} , \textbf{\emph{x}} \right )

当出现某种度量s非对称时,可以通过s^{'}\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) = s^{'}\left ( \textbf{\emph{y}} , \textbf{\emph{x}} \right ) = \frac{s\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) + s \left ( \textbf{\emph{y}} , \textbf{\emph{x}} \right )}{2}来转换。

 

1.简单匹配系数(SMC)

SMC=\frac{f_{11} + f_{00}}{f_{11} + f_{00} + f_{10} + f_{01}}

SMC就是匹配的维数比上总维数。

 

2.Jaccard系数

J=\frac{f_{11}}{f_{11} + f_{10} + f_{01}}=\frac{ \textbf{\emph{x}} \wedge \textbf{\emph{y}} }{\textbf{\emph{x}} \vee \textbf{\emph{y}}}

相比SMC,Jaccard系数针对不平衡数据进行了改良,它会无视同为0的维度。

 

3.广义Jaccard系数(Tanimoto系数、谷本系数)

EJ = \frac{\textbf{\emph x} \cdot \textbf{\emph y}} {\left | \textbf{\emph x} \right | ^2 + \left | \textbf{\emph y} \right |^2 - \textbf{\emph x} \cdot \textbf{\emph y}}

广义Jaccard系数不仅和\textbf{\emph{x}}\textbf{\emph{y}}之间的夹角\theta有关,还和\left |\textbf{\emph{x}} \right |\left |\textbf{\emph{y}} \right |有关。下图就是两个单位向量在不同夹角下的广义Jaccard系数走势图:

从上图也能看出,广义Jaccard系数上下并不对称。

下图是两个同方向的向量在不同\frac{\left | \textbf{\emph x} \right |}{\left | \textbf{\emph y} \right |}下的广义Jaccard系数走势。

下图是两个向量的模的比例从1:1线性变化至1:10时,在不同夹角下的广义Jaccard系数走势,可以看出两个向量的模差距越大,广义Jaccard系数越小。

因此可以得出,广义Jaccard系数即考虑向量之间的夹角,又考虑向量之间模的差异

 

4.余弦相似度

cos\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) = \frac {\textbf{\emph{x}} . \textbf{\emph{y}}} {\left| \textbf{\emph{x}} \right|. \left| \textbf{\emph{y}} \right|}

余弦相似度只关心两个向量之间的夹角,不关心向量之间模的差异

 

5.相关性-皮尔森相关(Pearson's correlation)

\rho = \frac{S_{xy}}{S_x \cdot S_y} = \frac{cov\left ( \textbf{\emph x} , \textbf{\emph y} \right )} {std \left (\textbf{\emph x} \right ) \cdot std\left ( \textbf{\emph y} \right ) } \qquad \rho \in \left [ -1,1 \right ]

其中cov\left ( \textbf{\emph x} , \textbf{\emph y} \right )是向量\textbf{\emph x}\textbf{\emph y}样本协方差:

cov\left ( \textbf{\emph x} , \textbf{\emph y} \right ) = S_{xy} =\frac{1}{n-1} \sum^{n}_{k=1} \left ( x_k - \bar{\textbf{\emph x}} \right ) \left ( y_k - \bar{\textbf{\emph y}} \right )

std\left ( \textbf{\emph x} \right )样本标准差:

std\left ( \textbf{\emph x} \right ) = S_x = \sqrt{\frac{1}{n-1} \sum^{n}_{k=1} \left ( x_k - \bar{x} \right )^2}

从样本协方差的公式可以看出,若要两个向量的样本协方差的绝对值足变大,那么除了要求变化幅度够大以外,还要求\left ( x_k - \bar{\textbf{\emph x}} \right )\left ( y_k - \bar{\textbf{\emph y}} \right )尽量同号,也就是说,向量x和y尽量是“同步变化”的(同增同减,或者一增一减)。

我们对关系数\rho的公式稍作变形:

\begin{align*} \\ \rho & = \frac{cov\left ( \textbf{\emph x} , \textbf{\emph y} \right )} {std \left (\textbf{\emph x} \right ) \cdot std\left ( \textbf{\emph y} \right ) } \\ & = \frac{\frac{1}{n-1} \sum^{n}_{k=1} \left ( x_k - \bar{\textbf{\emph x}} \right ) \left ( y_k - \bar{\textbf{\emph y}} \right )}{std\left ( \textbf{\emph x} \right ) \cdot std\left ( \textbf{\emph y} \right )} \\ &= \frac{1}{n-1} \sum^{n}_{k=1} \frac{\left ( x_k - \bar{\textbf{\emph x}} \right ) }{std\left ( \textbf{\emph x} \right )} \cdot \frac{\left ( y_k - \bar{\textbf{\emph y}} \right ) }{std\left ( \textbf{\emph y} \right )} \\ &= \frac{1}{n-1} \sum^{n}_{k=1} x^{'}_{k} y^{'}_{k} \end{align*}

其中x^{'}_{k}y^{'}_{k}分别是标准化后的x_ky_k,也就是说\rho已经刨去了变化幅度的影响因素,单纯保留同步程度。

 

6.Bregman散度

给定一个严格凸函数\phi,由该函数生成的Bregman散度(损失函数)D\left ( \textbf{\emph x}, \textbf{\emph y} \right )如下:

D\left ( \textbf{\emph x} , \textbf{\emph y} \right ) = \phi \left ( \textbf{\emph x} \right ) - \phi \left ( \textbf{\emph y} \right ) - \nabla \phi\left( \textbf{\emph y} \right ) \cdot \left ( \textbf{\emph x} - \textbf{\emph y} \right ) ,其中\nabla \phi\left( \textbf{\emph y} \right )是指函数\phi\textbf{\emph y }处的梯度向量。

Bregman散度在一元函数(二维空间)内,实际上就是计算\Delta y-f^{'}_{x_0} \left ( \Delta x \right )

上图就是一个二维空间里,\phi\left ( x \right )=x^2时,x_0=1,\Delta x=1\left ( x_1=2 \right )时的散度D\left ( 2, 1 \right )

实际上Bregman散度就是函数\phi在点\textbf{\emph y}处的一阶泰勒展开的余项。

 

(四)异种属性组合的相似度(相异度)度量

异种属性的相似度的度量基本上遵循以下算法流程:

step1:计算每个属性的相似度。对第k个属性,计算相似度s_k\left ( \textbf{\emph x} , \textbf{\emph y} \right ) , s_k \in \left [ 0,1 \right ]

step2:筛选非对称属性,目的是为了剔除非对称属性,或者存在数据缺失情况的属性。\delta_k=0,如果第k个属性属性是非对称的或者存在数据缺失情况,否则\delta_k=1

step3:计算两个对象之间的相似度similarity(\textbf{\emph x} , \textbf{\emph y}) = \frac{ \sum_{k=1}^{n} \delta_k s_k \left ( \textbf{\emph x} , \textbf{\emph y} \right ) }{ \sum_{k=1}^{n} \delta_k }

其本质就是计算各个属性的(加权)均值,因此如果更一般化的话,设权重w_k代表第k个属性的重要性,而且\sum_{k=1}^{n}w_k=1,那么上式可以修改为similarity(\textbf{\emph x} , \textbf{\emph y}) = \frac{ \sum_{k=1}^{n} w_k s_k \left ( \textbf{\emph x} , \textbf{\emph y} \right ) }{ \sum_{k=1}^{n} w_k }

同理也能用加权的方法来度量异种属性的对象的相异度,比如加权闵可夫斯基距离:d(\textbf{\emph{x}}, \textbf{\emph{y}})=\left ( \sum_{k=1}^{n} w_k \left | x_{k}-y_{k} \right |^{r} \right )^{1/r}

 

 

二、信息度量

(一)概述

信息论是研究对一个信号包含的信息量的多少进行量化。信息论告诉我们如何对消息设计最优编码以及计算消息的期望长度(尽可能简短的信息包含尽可能多的信息)。信息论的基本想法是一个不太可能发生的事情居然发生了,这一事件要比一个非常可能的事情发生所蕴含的信息量要大。举个例子,“今天早上太阳没有升起”这一事件所蕴含的信息量要远大于“今天早上太阳照常升起”。基于以上思想,量化信息的方法基本可以归纳为:

1.大概率事件蕴含的信息量较少(极端情况下,必然事件不含信息量)

2.小概率事件蕴含的信息量较大

3.独立事件蕴含的信息量具有可加性。

那么根据第一第二条可以得出信息度量函数的特点是:\frac{\mathrm{d} I(x)}{\mathrm{d} P(x)} < 0 \quad and \quad \lim_{P(x) \rightarrow 1}I(x)=0;根据第三条可以得出I(xy)=I(x) + I(y),其中xy是两个相互独立的事件的概率。满足这些特点的初等函数就是对数函数,因此定义一个事件\mathbf{x}=x的自信息(self-information,只是单条信息所含的信息量)为:

I(x)=-\ln P(x)

这里对数函数的底数是自然常数e,其单位为奈特(nats)。如果底数为2,那么其单位是比特(bit)或者香农(shannons)。

 

(二)信息熵

熵作为热力学中表征物质状态的参量之一,其物理意义是体系混乱程度的度量。在信息论中,单独事件发生概率越小(事件越“散”,越“无规律”,越“混乱”),那么整体的信息量就越大,信息熵思路和热力学中的熵相似。

 

1.香农熵/信息熵(Shannon Entropy)

当有一连串离散事件\mathbf{x}的时候,总事件\mathbf{x}=\{ x_1, x_2,\dots, x_n\},香农熵可以对其进行一个信息总量的描述,记作H(\mathbf{x})

\begin{align*} H(\mathbf{x}) &= E(I(\mathbf{x}))\\ &= \sum_{i=1}^{n}P(x_i)I(x_i) \\ & = -\sum_{i=1}^{n}P(x_i)\ln P(x_i) \end{align}

当有一个连续事件\mathbf{x}的时候,香农熵(微分熵)可以表示为:

\begin{align*} H(\mathbf{x}) &= E(I(\mathbf{x}))\\ & = -\int f(x)\ln f(x) \mathrm{d}x \end{align}

香农熵本质就是一系列事件的自信息的期望。

特别指出:\lim_{x\rightarrow 0} x \ln x = 0(可通过洛必达法则轻松证明)。

 

2.KL散度/相对熵(Kullback-Leibler Divergence)

当针对同一个随机变量\mathrm{x}有两个单独的概率分布P(\mathrm{x})Q(\mathrm{x}),如果要衡量这两种分布的差异(I_P(\mathrm x ) - I_Q(\mathrm x))。如果有一连串的离散事件\mathbf{x},可以用KL散度来衡量这个分布的差异:

\begin{align*} D_{KL}(P||Q) &= E_{\mathbf{x} \sim P} (I_Q(x) - I_P(x)) \\ &= \sum P(x)(\ln P(x) - \ln Q(x)) \\ &= \sum P(x) \ln \frac{P(x)}{Q(y)} \end{align*}

首先KL散度是非对称的(D_{KL}(P||Q) \neq D_{KL}(Q||P))。其次KL散度为0,当且仅当PQ在离散状态下是同分布,或者在连续状态下是几乎处处相同。

 

3.交叉熵

交叉熵和KL散度非常相似,它的计算规则是:

\begin{align*} H(P,Q) &=H(P)+D_{KL}(P||Q) \\ & = E_{\mathbf{x} \sim P} (I_Q(x)) \\ & = - \sum P(x) \ln Q(x) \end{align*}

 

(三)其他信息不纯度度量

1.基尼值(Gini)

Gini是另外一种描述信息不纯度的度量,Gini的计算方式如下:

\begin{align*} Gini &= \sum_{i=1}^{n} P(x_i)(1-P(x_i)) \\ & = 1 - \sum_{i=1}^{n}P^2(x_i) \end{align}

通过简单推导,可以得出如下结论:Gini \in [0,\frac{n-1}{n}],当且仅当P(x_j) =1P(x_{i \neq j}) =0Gini=0,此时信息“最纯”;P(x_i)=\frac{1}{n}Gini=\frac{n-1}{n},此时信息“最不纯”。Gini不仅与事件集合内的事件分布有关,还和事件总数有关。

Gini相比信息熵,Gini永远介于0和1之间,而信息熵会因为底数而突破1。

 

2.分类误差(Classification Error)

分类误差是一种非常简单粗暴的信息不纯度度量,它只关心所有事件中概率最大的那个事件(事件集合里最“纯”的那个事件),并以它来衡量整体信息的不纯度,其计算方式如下:

Error = 1 - \max P(\mathbf{x})

可以看出Error \in [0, \frac{n-1}{n}],它的值域和Gini相同,只不过它的变化过程和\max P(\mathbf{x})完全线性相关。

 

(四)信息增益

 

 

三、模型性能度量

(一)概述

(二)

(三)

 

相关证明与推导

1.余弦相似度推导:

 

首先证明余弦定理,如上图所示,可以得到:

\left\{ \begin{array}{lr} \left | a \right |= \left | b \right | \cdot cos\left ( \gamma \right ) + \left | c \right | \cdot cos\left ( \beta \right ) \\ \left | b \right |= \left | a \right | \cdot cos\left ( \gamma\right ) + \left | c \right | \cdot cos\left ( \alpha \right ) \\ \left | c \right |= \left | a \right | \cdot cos\left ( \beta\right ) + \left | b \right | \cdot cos\left ( \alpha \right ) \\ \end{array} \right.

上面等式组可以转换为如下:

\left\{ \begin{array}{lr} \left | a \right |^2= \left | a \right | \left | b \right | \cdot cos\left ( \gamma \right ) + \left | a \right | \left | c \right | \cdot cos\left ( \beta \right ) \qquad (1)\\ \left | b \right |^2= \left | a \right | \left | b \right | \cdot cos\left ( \gamma\right ) + \left | b \right | \left | c \right | \cdot cos\left ( \alpha \right ) \qquad (2)\\ \left | c \right |^2= \left | a \right | \left | c \right | \cdot cos\left ( \beta\right ) + \left | b \right | \left | c \right | \cdot cos\left ( \alpha \right ) \qquad (3)\\ \end{array} \right.

等式(1)减去等式(2)减去等式(3)可得:

\left | a \right |^2 = \left | b \right |^2 + \left | c \right |^2 - 2\left | b \right | \left | c \right | \cdot cos\left ( \alpha \right )

同理可得:

\\ \left | b \right |^2 = \left | a \right |^2 + \left | c \right |^2 - 2\left | a \right | \left | c \right | \cdot cos\left ( \beta \right ) \\ \left | c \right |^2 = \left | a \right |^2 + \left | b \right |^2 - 2\left | a \right | \left | b \right | \cdot cos\left ( \gamma \right )

根据余弦定理可以轻松证明余弦相似度,具体如下:

如图向量\mathbf{\mathit{}a}\textbf{\emph{a}}\textbf{\emph{b}}之间的夹角为\theta,其中\textbf{\emph{c}} = \textbf{\emph{b}} - \textbf{\emph{a}},展开可得:

\\ \left | \textbf{\emph{c}} \right |^2 = \left | \textbf{\emph{b}} - \textbf{\emph{a}} \right |^2 = \left | \left ( \textbf{\emph{b}} - \textbf{\emph{a}} \right) ^2 \right| = \left | \textbf{\emph{a}} \right |^2 + \left | \textbf{\emph{b}} \right |^2 - 2 \textbf{\emph{a}} \cdot \textbf{\emph{b}} \\

根据余弦定理可得:

\\ \left | \textbf{\emph{c}} \right |^2 = \left | \textbf{\emph{a}} \right |^2 + \left | \textbf{\emph{b}} \right |^2 - 2\left | \textbf{\emph{a}} \right | \left | \textbf{\emph{b}} \right | \cdot cos\left ( \theta \right )

根据上面两个等式可以得出:\textbf{\emph{a}} \cdot \textbf{\emph{b}} = \left | \textbf{\emph{a}} \right | \left | \textbf{\emph{b}} \right | \cdot cos\left ( \theta \right )

 

2.马氏距离公式推导

马氏距离的推导主要分为两步:1.旋转空间,使得特征矩阵线性无关,2.压缩空间,使得各个属性方差为1。

设有一个特征矩阵\textbf{\emph F}_{mn}=\begin{bmatrix} \textbf{\emph f}_1, \textbf{\emph f}_2, \cdots \textbf{\emph f}_n \end{bmatrix}=\begin{bmatrix} f_{11}, & f_{12}, & \dots, & f_{1n}\\ f_{21}, & f_{22}, & \dots, & f_{2n}\\ \vdots & \vdots & \ddots & \vdots \\ f_{m1}, & f_{m2},& \dots, &f_{mn}\\ \end{bmatrix},其中\textbf{\emph f}_j= \begin{bmatrix} f_{1j} \\f_{2j}\\ \vdots \\f_{mj} \end{bmatrix},代表第j个属性。

设矩阵\mu \textbf{\emph F}_{mn}= \begin{bmatrix} \mu_1, & \mu_2, & \dots, & \mu_n \\ \mu_1, & \mu_2, & \dots, & \mu_n \\ \vdots & \vdots & \ddots & \vdots \\ \mu_1, & \mu_2, & \dots, & \mu_n \\ \end{bmatrix}\textbf{\emph D}_{mn} = \textbf{\emph F}_{mn} - \mu\textbf{\emph F}_{mn} = \begin{bmatrix} f_{11} - \mu_1, & f_{12} - \mu_2, & \dots, & f_{1n} - \mu_n \\ f_{21} - \mu_1, & f_{22} - \mu_2, & \dots, & f_{2n} - \mu_n \\ \vdots & \vdots & \ddots & \vdots \\ f_{m1} - \mu_1, & f_{m2} - \mu_2,& \dots, &f_{mn} - \mu_n \\ \end{bmatrix},其中\mu_j为第j个属性的均值。于是可以得出属性的协方差矩阵\Sigma_F= \frac{1}{m} \textbf{\emph D}_{mn}^{T} \textbf{\emph D}_{mn},其中\Sigma_F是一个形状为n \times n的实对称矩阵。对\Sigma_F进行特征分解,即存在正交矩阵\textbf{\emph U},使得\Sigma_F = \textbf{\emph U} \Lambda \textbf{\emph U}^T,其中\Lamba\Lambda\Sigma_F的特征矩阵。反过来说,矩阵\textbf{\emph U}可以使\Sigma_F对角化,即\textbf{\emph U}^{-1} \Sigma_F \textbf{\emph U} = \Lambda。(注:这里用了线性代数的一个重要定理:每个实对称阵都可以分解成实特征向量和实特征值:\textbf{\emph A} = \textbf{\emph Q} \Lambda \textbf{\emph Q}^T,其中\textbf{\emph Q}\textbf{\emph Q}^T=\textbf{\emph E}

因此通过线性变化(矩阵)\textbf{\emph U},可以将特征矩阵\textbf{\emph F}_{mn}转换为线性无关的特征矩阵,即\textbf{\emph F}_{mn}' = \textbf{\emph F}_{mn} \textbf{\emph U},此时\textbf{\emph F}_{mn}'的协方差矩阵就是对角阵\Lambda\Lambda对角线上的值都是\textbf{\emph F}_{mn}'各列的方差。那么\textbf{\emph F}_{mn}'的标准差便是\Lambda^{\frac{1}{2}}。把转换过的特征矩阵\textbf{\emph F}_{mn}'的各个属性的方差转换为1(每列除以每列的标准差),即\textbf{\emph F}_{mn}' \Lambda^{- \frac{1}{2}}

\textbf{\emph F}_{mn}中有两个对象\textbf{\emph x}\textbf{\emph y},设\textbf{\emph x}'\textbf{\emph y}'分别是对\textbf{\emph x}\textbf{\emph y}进行线性变换后得到的结果,它们线性无关,并且方差为1,那么\textbf{\emph x}' = \textbf{\emph x}\textbf{\emph U} \Lambda^{-\frac{1}{2}}\textbf{\emph y}' = \textbf{\emph y}\textbf{\emph U} \Lambda^{-\frac{1}{2}}\textbf{\emph x}'\textbf{\emph y}'L_2范数的平方可以表示为:

\begin{align*} \\d^2 \left ( \textbf{\emph x'} , \textbf{\emph y'} \right ) & = \left ( \textbf{\emph x} ' - \textbf{\emph y} ' \right ) \left ( \textbf{\emph x} ' - \textbf{\emph y} ' \right )^T \\ & = \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \textbf{\emph U} \Lambda^{-\frac{1}{2}} \Lambda^{-\frac{1}{2}T} \textbf{\emph U}^T \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T \\ & = \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \textbf{\emph U} \Lambda^{-1} \textbf{\emph U}^T \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T \\ & = \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \left (\textbf{\emph U} \Lambda \textbf{\emph U}^T \right )^{-1} \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T \\ & = \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \Sigma_F^{-1} \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T \\ \end{align*}

注:《数据挖掘导论》p48的等式(2-14)实际上是一个L_2范数的平方。

 

3.香农熵的值域

在离散的情况下,香农熵公式为:H(\mathrm{p}) = -\sum_{i=1}^{n} p_i \log_{m} p_i,表示n个事件所蕴含的信息总量,其中p_i \geq 0 \quad and \quad\sum_{i=1}^{n} p_i =1,由此可以轻松得出H(\mathrm p) \geq 0。由于H(\mathrm p)的Hessian矩阵是负定的,所以H(\mathrm p)是一个上凸函数,H(\mathrm p)存在最大值,那么极值问题可以归纳为:

\begin{align*} \min & \quad p_i \log_{m}p_i \\ s.t. & \quad \sum_{i=1}^{n} p_i -1=0 \end{align*}

构建Lagrange函数:

L = \sum_{i=1}^{n} p_i \log_{m}p_i + \lambda (\sum_{i=1}^{n} p_i - 1)

求偏导可得:

\begin{align*} \frac{\partial L}{\partial p_i} &= \frac{1}{\ln m} +\log_{m}p_i + \lambda =0 \qquad &(1) \\ \frac{\partial L}{\partial \lambda} &= \sum_{i=1}^{n}p_i -1=0 \qquad &(2) \end{align}

由等式(组)1和等式2可得:\log_{m}p_1 = \log_{m}p_2 = \dots =\log_{m}p_n=-(\lambda +\frac{1}{\ln m}),即p_i=\frac{1}{n}。此时,香农熵H_{\max}(\mathrm{p}) = \sum_{i=1}^{n} \frac{\log_{m} n }{n},而且当m=n时,H_{\max}(\mathrm{p}) = 1

综上所述,当所有事件按相同概率均匀分布时,香农熵最大。而且当对数的底数等于事件总数时,香农熵的最大值为1(以2为底数的香农熵上来就是归一化的)。

 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值