数据挖掘笔记 - 度量

最新推荐文章于 2024-05-13 09:01:39 发布

另外半个肖恩

最新推荐文章于 2024-05-13 09:01:39 发布

阅读量3.6k

点赞数 2

本文链接：https://blog.csdn.net/shawn_gee/article/details/84314645

版权

参考文献

《数据挖掘导论》 2.4 相似性和向异性的度量
《深度学习》 3.13 信息论

度量

一、数据对象相似性和向异性的度量

（一）概述

1.定义

非正式的定义为，相似度为两个对象相似程度的度量，两个对象越相似，相似度就越高。相似度通常在0（完全不相似）到1（完全相似）之间取值。相异度（距离）表示两个对象的差异程度，相异度有事在 $\left [0,1 \right ]$ 之间取值，有时相异度在 $\left [ 0,\infty \right )$ 。

下表是不同类型的属性的简单相似度和相异度的计算方法。

		相关操作	相异度	相似度
定性	标称	$=$ 、 $\neq$ 、众数、熵、列联相关、 $\chi^2$ 检验	$d=\left \{ \begin{array}{lr} 0 \qquad if \quad x=y \\ 1 \qquad if \quad x \neq y \end{array} \right.$	$\\s=1-d \\=\left \{ \begin{array}{lr} 1 \qquad if \quad x=y \\ 0 \qquad if \quad x \neq y \end{array} \right.$
定性	序数	$<$ 、 $\leq$ 、 $>$ 、 $\geq$ 、中值、分位数、秩相关、游程检验、符号检验	$d=\frac{\left \| x-y \right \|}{n-1}$	$s=1-d$
数值	区间	$+$ 、 $-$ 、均值、方差、协方差、t/F检验	$d=\left \| x-y \right \|$	$\\s=-d \quad, \\ s=\frac{1}{1+d} \quad , \\ s=e^{-d} \quad , \\ s=1-\frac{d-\textbf{\emph d}_{min}}{\textbf{\emph d}_{max}-\textbf{\emph d}_{min}}$
数值	比率	$\times$ 、 $\div$ 、几何平均、调和平均、百分比差	$d=\left \| x-y \right \|$

2.转换

一般来说，任何单调减函数都可以用来将相异度转换到相似度（或相反）。

（二）数据对象之间的相异度度量

1.Minkowski 距离（闵可夫斯基距离）

闵可夫斯基距离（Minkowski distance）：

$d(\textbf{\emph{x}}, \textbf{\emph{y}})=\left ( \sum_{k=1}^{n} \left | x_{k}-y_{k} \right |^{r} \right )^{1/r}$

当 $r=1$ 时， $d(\textbf{\emph{x}}, \textbf{\emph{y}})$ 是曼哈顿距离（ $L_{1}$ 范数），简而言之只能沿着空间的基向量方向从起点移动至终点。

当 $r=2$ 时， $d(\textbf{\emph{x}}, \textbf{\emph{y}})$ 是欧几里得距离（ $L_{2}$ 范数）。

当 $r=\infty$ 时， $d(\textbf{\emph{x}}, \textbf{\emph{y}})$ 是棋盘距离（上确界距离，切比雪夫距离， $L_{max}$ 或者 $L_{\infty}$ 范数)，其实就等价于 $d(\textbf{\emph{x}}, \textbf{\emph{y}})=\lim_{r\rightarrow \infty} \left( \sum_{k=1}^{n} \left | x_{k}-y_{k} \right |^{r} \right) = \max \left( d_{1}, d_{2}, ... , d_{n} \right)$ ，其中 $d_{k}= \left| x_{k}-y_{k} \right| \qquad k \in \left [ 1,n \right ]$ 。

距离（闵可夫斯基距离）满足非负性，对称性，三角不等式。满足以上三个性质的测度称为度量。

2.Mahalanobis距离（马氏距离）

当属性相关、具有不同的方差、并且分布近似于高斯分布时，Mahalanobis距离是有效的。

$mahalannobis\left ( \textbf{\emph x} , \textbf{\emph y} \right )= \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \Sigma^{-1} \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T$ ，其中 $\Sigma^{-1}$ 是特征矩阵的协方差矩阵 $\Sigma$ 的逆矩阵。

马氏距离相比欧氏距离的优势在于：1.去量纲，2.去共线性。

（三）数据对象之间的相似度度量

相似度具有以下性质：

(1)当且仅当 $\textbf{\emph{x}} = \textbf{\emph{y}}$ 时， $s\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) = 1$ 。 $\left ( 0\leq s \leq 1 \right )$

(2)对于所有的x和y， $s\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) = s\left ( \textbf{\emph{y}} , \textbf{\emph{x}} \right )$

当出现某种度量s非对称时，可以通过 $s^{'}\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) = s^{'}\left ( \textbf{\emph{y}} , \textbf{\emph{x}} \right ) = \frac{s\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) + s \left ( \textbf{\emph{y}} , \textbf{\emph{x}} \right )}{2}$ 来转换。

1.简单匹配系数（SMC)

$SMC=\frac{f_{11} + f_{00}}{f_{11} + f_{00} + f_{10} + f_{01}}$

SMC就是匹配的维数比上总维数。

2.Jaccard系数

$J=\frac{f_{11}}{f_{11} + f_{10} + f_{01}}=\frac{ \textbf{\emph{x}} \wedge \textbf{\emph{y}} }{\textbf{\emph{x}} \vee \textbf{\emph{y}}}$

相比SMC，Jaccard系数针对不平衡数据进行了改良，它会无视同为0的维度。

3.广义Jaccard系数（Tanimoto系数、谷本系数）

$EJ = \frac{\textbf{\emph x} \cdot \textbf{\emph y}} {\left | \textbf{\emph x} \right | ^2 + \left | \textbf{\emph y} \right |^2 - \textbf{\emph x} \cdot \textbf{\emph y}}$

广义Jaccard系数不仅和 $\textbf{\emph{x}}$ ， $\textbf{\emph{y}}$ 之间的夹角 $\theta$ 有关，还和 $\left |\textbf{\emph{x}} \right |$ ， $\left |\textbf{\emph{y}} \right |$ 有关。下图就是两个单位向量在不同夹角下的广义Jaccard系数走势图：

从上图也能看出，广义Jaccard系数上下并不对称。

下图是两个同方向的向量在不同 $\frac{\left | \textbf{\emph x} \right |}{\left | \textbf{\emph y} \right |}$ 下的广义Jaccard系数走势。

下图是两个向量的模的比例从 $1:1$ 线性变化至 $1:10$ 时，在不同夹角下的广义Jaccard系数走势，可以看出两个向量的模差距越大，广义Jaccard系数越小。

因此可以得出，广义Jaccard系数即考虑向量之间的夹角，又考虑向量之间模的差异。

4.余弦相似度

$cos\left ( \textbf{\emph{x}} , \textbf{\emph{y}} \right ) = \frac {\textbf{\emph{x}} . \textbf{\emph{y}}} {\left| \textbf{\emph{x}} \right|. \left| \textbf{\emph{y}} \right|}$

余弦相似度只关心两个向量之间的夹角，不关心向量之间模的差异。

5.相关性-皮尔森相关（Pearson's correlation）

$\rho = \frac{S_{xy}}{S_x \cdot S_y} = \frac{cov\left ( \textbf{\emph x} , \textbf{\emph y} \right )} {std \left (\textbf{\emph x} \right ) \cdot std\left ( \textbf{\emph y} \right ) } \qquad \rho \in \left [ -1,1 \right ]$

其中 $cov\left ( \textbf{\emph x} , \textbf{\emph y} \right )$ 是向量 $\textbf{\emph x}$ 和 $\textbf{\emph y}$ 的样本协方差：

$cov\left ( \textbf{\emph x} , \textbf{\emph y} \right ) = S_{xy} =\frac{1}{n-1} \sum^{n}_{k=1} \left ( x_k - \bar{\textbf{\emph x}} \right ) \left ( y_k - \bar{\textbf{\emph y}} \right )$

而 $std\left ( \textbf{\emph x} \right )$ 是样本标准差：

$std\left ( \textbf{\emph x} \right ) = S_x = \sqrt{\frac{1}{n-1} \sum^{n}_{k=1} \left ( x_k - \bar{x} \right )^2}$

从样本协方差的公式可以看出，若要两个向量的样本协方差的绝对值足变大，那么除了要求变化幅度够大以外，还要求 $\left ( x_k - \bar{\textbf{\emph x}} \right )$ 和 $\left ( y_k - \bar{\textbf{\emph y}} \right )$ 尽量同号，也就是说，向量x和y尽量是“同步变化”的（同增同减，或者一增一减）。

我们对关系数 $\rho$ 的公式稍作变形：

$\begin{align*} \\ \rho & = \frac{cov\left ( \textbf{\emph x} , \textbf{\emph y} \right )} {std \left (\textbf{\emph x} \right ) \cdot std\left ( \textbf{\emph y} \right ) } \\ & = \frac{\frac{1}{n-1} \sum^{n}_{k=1} \left ( x_k - \bar{\textbf{\emph x}} \right ) \left ( y_k - \bar{\textbf{\emph y}} \right )}{std\left ( \textbf{\emph x} \right ) \cdot std\left ( \textbf{\emph y} \right )} \\ &= \frac{1}{n-1} \sum^{n}_{k=1} \frac{\left ( x_k - \bar{\textbf{\emph x}} \right ) }{std\left ( \textbf{\emph x} \right )} \cdot \frac{\left ( y_k - \bar{\textbf{\emph y}} \right ) }{std\left ( \textbf{\emph y} \right )} \\ &= \frac{1}{n-1} \sum^{n}_{k=1} x^{'}_{k} y^{'}_{k} \end{align*}$

其中 $x^{'}_{k}$ 和 $y^{'}_{k}$ 分别是标准化后的 $x_k$ 和 $y_k$ ，也就是说 $\rho$ 已经刨去了变化幅度的影响因素，单纯保留同步程度。

6.Bregman散度

给定一个严格凸函数 $\phi$ ，由该函数生成的Bregman散度（损失函数） $D\left ( \textbf{\emph x}, \textbf{\emph y} \right )$ 如下：

$D\left ( \textbf{\emph x} , \textbf{\emph y} \right ) = \phi \left ( \textbf{\emph x} \right ) - \phi \left ( \textbf{\emph y} \right ) - \nabla \phi\left( \textbf{\emph y} \right ) \cdot \left ( \textbf{\emph x} - \textbf{\emph y} \right )$ ，其中 $\nabla \phi\left( \textbf{\emph y} \right )$ 是指函数 $\phi$ 在 $\textbf{\emph y }$ 处的梯度向量。

Bregman散度在一元函数（二维空间）内，实际上就是计算 $\Delta y-f^{'}_{x_0} \left ( \Delta x \right )$ 。

上图就是一个二维空间里， $\phi\left ( x \right )=x^2$ 时， $x_0=1,\Delta x=1\left ( x_1=2 \right )$ 时的散度 $D\left ( 2, 1 \right )$ 。

实际上Bregman散度就是函数 $\phi$ 在点 $\textbf{\emph y}$ 处的一阶泰勒展开的余项。

（四）异种属性组合的相似度（相异度）度量

异种属性的相似度的度量基本上遵循以下算法流程：

step1：计算每个属性的相似度。对第 $k$ 个属性，计算相似度 $s_k\left ( \textbf{\emph x} , \textbf{\emph y} \right ) , s_k \in \left [ 0,1 \right ]$

step2：筛选非对称属性，目的是为了剔除非对称属性，或者存在数据缺失情况的属性。 $\delta_k=0$ ，如果第 $k$ 个属性属性是非对称的或者存在数据缺失情况，否则 $\delta_k=1$ 。

step3：计算两个对象之间的相似度 $similarity(\textbf{\emph x} , \textbf{\emph y}) = \frac{ \sum_{k=1}^{n} \delta_k s_k \left ( \textbf{\emph x} , \textbf{\emph y} \right ) }{ \sum_{k=1}^{n} \delta_k }$ 。

其本质就是计算各个属性的（加权）均值，因此如果更一般化的话，设权重 $w_k$ 代表第 $k$ 个属性的重要性，而且 $\sum_{k=1}^{n}w_k=1$ ，那么上式可以修改为 $similarity(\textbf{\emph x} , \textbf{\emph y}) = \frac{ \sum_{k=1}^{n} w_k s_k \left ( \textbf{\emph x} , \textbf{\emph y} \right ) }{ \sum_{k=1}^{n} w_k }$ 。

同理也能用加权的方法来度量异种属性的对象的相异度，比如加权闵可夫斯基距离： $d(\textbf{\emph{x}}, \textbf{\emph{y}})=\left ( \sum_{k=1}^{n} w_k \left | x_{k}-y_{k} \right |^{r} \right )^{1/r}$ 。

二、信息度量

（一）概述

信息论是研究对一个信号包含的信息量的多少进行量化。信息论告诉我们如何对消息设计最优编码以及计算消息的期望长度（尽可能简短的信息包含尽可能多的信息）。信息论的基本想法是一个不太可能发生的事情居然发生了，这一事件要比一个非常可能的事情发生所蕴含的信息量要大。举个例子，“今天早上太阳没有升起”这一事件所蕴含的信息量要远大于“今天早上太阳照常升起”。基于以上思想，量化信息的方法基本可以归纳为：

1.大概率事件蕴含的信息量较少（极端情况下，必然事件不含信息量）

2.小概率事件蕴含的信息量较大

3.独立事件蕴含的信息量具有可加性。

那么根据第一第二条可以得出信息度量函数的特点是： $\frac{\mathrm{d} I(x)}{\mathrm{d} P(x)} < 0 \quad and \quad \lim_{P(x) \rightarrow 1}I(x)=0$ ；根据第三条可以得出 $I(xy)=I(x) + I(y)$ ，其中 $x$ 和 $y$ 是两个相互独立的事件的概率。满足这些特点的初等函数就是对数函数，因此定义一个事件 $\mathbf{x}=x$ 的自信息（self-information，只是单条信息所含的信息量）为：

$I(x)=-\ln P(x)$

这里对数函数的底数是自然常数 $e$ ，其单位为奈特（nats）。如果底数为2，那么其单位是比特（bit）或者香农（shannons）。

（二）信息熵

熵作为热力学中表征物质状态的参量之一，其物理意义是体系混乱程度的度量。在信息论中，单独事件发生概率越小（事件越“散”，越“无规律”，越“混乱”），那么整体的信息量就越大，信息熵思路和热力学中的熵相似。

1.香农熵/信息熵（Shannon Entropy）

当有一连串离散事件 $\mathbf{x}$ 的时候，总事件 $\mathbf{x}=\{ x_1, x_2,\dots, x_n\}$ ，香农熵可以对其进行一个信息总量的描述，记作 $H(\mathbf{x})$ ：

$\begin{align*} H(\mathbf{x}) &= E(I(\mathbf{x}))\\ &= \sum_{i=1}^{n}P(x_i)I(x_i) \\ & = -\sum_{i=1}^{n}P(x_i)\ln P(x_i) \end{align}$

当有一个连续事件 $\mathbf{x}$ 的时候，香农熵（微分熵）可以表示为：

$\begin{align*} H(\mathbf{x}) &= E(I(\mathbf{x}))\\ & = -\int f(x)\ln f(x) \mathrm{d}x \end{align}$

香农熵本质就是一系列事件的自信息的期望。

特别指出： $\lim_{x\rightarrow 0} x \ln x = 0$ （可通过洛必达法则轻松证明）。

2.KL散度/相对熵（Kullback-Leibler Divergence）

当针对同一个随机变量 $\mathrm{x}$ 有两个单独的概率分布 $P(\mathrm{x})$ 和 $Q(\mathrm{x})$ ，如果要衡量这两种分布的差异（ $I_P(\mathrm x ) - I_Q(\mathrm x)$ ）。如果有一连串的离散事件 $\mathbf{x}$ ，可以用KL散度来衡量这个分布的差异：

$\begin{align*} D_{KL}(P||Q) &= E_{\mathbf{x} \sim P} (I_Q(x) - I_P(x)) \\ &= \sum P(x)(\ln P(x) - \ln Q(x)) \\ &= \sum P(x) \ln \frac{P(x)}{Q(y)} \end{align*}$

首先KL散度是非对称的（ $D_{KL}(P||Q) \neq D_{KL}(Q||P)$ ）。其次KL散度为0，当且仅当 $P$ 和 $Q$ 在离散状态下是同分布，或者在连续状态下是几乎处处相同。

3.交叉熵

交叉熵和KL散度非常相似，它的计算规则是：

$\begin{align*} H(P,Q) &=H(P)+D_{KL}(P||Q) \\ & = E_{\mathbf{x} \sim P} (I_Q(x)) \\ & = - \sum P(x) \ln Q(x) \end{align*}$

(三）其他信息不纯度度量

1.基尼值（Gini）

Gini是另外一种描述信息不纯度的度量，Gini的计算方式如下：

$\begin{align*} Gini &= \sum_{i=1}^{n} P(x_i)(1-P(x_i)) \\ & = 1 - \sum_{i=1}^{n}P^2(x_i) \end{align}$

通过简单推导，可以得出如下结论： $Gini \in [0,\frac{n-1}{n}]$ ，当且仅当 $P(x_j) =1$ 且 $P(x_{i \neq j}) =0$ 时 $Gini=0$ ，此时信息“最纯”； $P(x_i)=\frac{1}{n}$ 时 $Gini=\frac{n-1}{n}$ ，此时信息“最不纯”。Gini不仅与事件集合内的事件分布有关，还和事件总数有关。

Gini相比信息熵，Gini永远介于0和1之间，而信息熵会因为底数而突破1。

2.分类误差（Classification Error）

分类误差是一种非常简单粗暴的信息不纯度度量，它只关心所有事件中概率最大的那个事件（事件集合里最“纯”的那个事件），并以它来衡量整体信息的不纯度，其计算方式如下：

$Error = 1 - \max P(\mathbf{x})$

可以看出 $Error \in [0, \frac{n-1}{n}]$ ，它的值域和Gini相同，只不过它的变化过程和 $\max P(\mathbf{x})$ 完全线性相关。

（四）信息增益

三、模型性能度量

（一）概述

（二）

（三）

相关证明与推导

1.余弦相似度推导：

首先证明余弦定理，如上图所示，可以得到:

$\left\{ \begin{array}{lr} \left | a \right |= \left | b \right | \cdot cos\left ( \gamma \right ) + \left | c \right | \cdot cos\left ( \beta \right ) \\ \left | b \right |= \left | a \right | \cdot cos\left ( \gamma\right ) + \left | c \right | \cdot cos\left ( \alpha \right ) \\ \left | c \right |= \left | a \right | \cdot cos\left ( \beta\right ) + \left | b \right | \cdot cos\left ( \alpha \right ) \\ \end{array} \right.$

上面等式组可以转换为如下：

$\left\{ \begin{array}{lr} \left | a \right |^2= \left | a \right | \left | b \right | \cdot cos\left ( \gamma \right ) + \left | a \right | \left | c \right | \cdot cos\left ( \beta \right ) \qquad (1)\\ \left | b \right |^2= \left | a \right | \left | b \right | \cdot cos\left ( \gamma\right ) + \left | b \right | \left | c \right | \cdot cos\left ( \alpha \right ) \qquad (2)\\ \left | c \right |^2= \left | a \right | \left | c \right | \cdot cos\left ( \beta\right ) + \left | b \right | \left | c \right | \cdot cos\left ( \alpha \right ) \qquad (3)\\ \end{array} \right.$

等式(1)减去等式(2)减去等式(3)可得：

同理可得：

根据余弦定理可以轻松证明余弦相似度，具体如下：

如图向量 $\mathbf{\mathit{}a}$ $\textbf{\emph{a}}$ 和 $\textbf{\emph{b}}$ 之间的夹角为 $\theta$ ，其中 $\textbf{\emph{c}} = \textbf{\emph{b}} - \textbf{\emph{a}}$ ，展开可得：

$\\ \left | \textbf{\emph{c}} \right |^2 = \left | \textbf{\emph{b}} - \textbf{\emph{a}} \right |^2 = \left | \left ( \textbf{\emph{b}} - \textbf{\emph{a}} \right) ^2 \right| = \left | \textbf{\emph{a}} \right |^2 + \left | \textbf{\emph{b}} \right |^2 - 2 \textbf{\emph{a}} \cdot \textbf{\emph{b}} \\$ 。

根据余弦定理可得：

$\\ \left | \textbf{\emph{c}} \right |^2 = \left | \textbf{\emph{a}} \right |^2 + \left | \textbf{\emph{b}} \right |^2 - 2\left | \textbf{\emph{a}} \right | \left | \textbf{\emph{b}} \right | \cdot cos\left ( \theta \right )$

根据上面两个等式可以得出： $\textbf{\emph{a}} \cdot \textbf{\emph{b}} = \left | \textbf{\emph{a}} \right | \left | \textbf{\emph{b}} \right | \cdot cos\left ( \theta \right )$ 。

2.马氏距离公式推导

马氏距离的推导主要分为两步：1.旋转空间，使得特征矩阵线性无关，2.压缩空间，使得各个属性方差为1。

设有一个特征矩阵 $\textbf{\emph F}_{mn}=\begin{bmatrix} \textbf{\emph f}_1, \textbf{\emph f}_2, \cdots \textbf{\emph f}_n \end{bmatrix}=\begin{bmatrix} f_{11}, & f_{12}, & \dots, & f_{1n}\\ f_{21}, & f_{22}, & \dots, & f_{2n}\\ \vdots & \vdots & \ddots & \vdots \\ f_{m1}, & f_{m2},& \dots, &f_{mn}\\ \end{bmatrix}$ ，其中 $\textbf{\emph f}_j= \begin{bmatrix} f_{1j} \\f_{2j}\\ \vdots \\f_{mj} \end{bmatrix}$ ，代表第 $j$ 个属性。

设矩阵 $\mu \textbf{\emph F}_{mn}= \begin{bmatrix} \mu_1, & \mu_2, & \dots, & \mu_n \\ \mu_1, & \mu_2, & \dots, & \mu_n \\ \vdots & \vdots & \ddots & \vdots \\ \mu_1, & \mu_2, & \dots, & \mu_n \\ \end{bmatrix}$ ， $\textbf{\emph D}_{mn} = \textbf{\emph F}_{mn} - \mu\textbf{\emph F}_{mn} = \begin{bmatrix} f_{11} - \mu_1, & f_{12} - \mu_2, & \dots, & f_{1n} - \mu_n \\ f_{21} - \mu_1, & f_{22} - \mu_2, & \dots, & f_{2n} - \mu_n \\ \vdots & \vdots & \ddots & \vdots \\ f_{m1} - \mu_1, & f_{m2} - \mu_2,& \dots, &f_{mn} - \mu_n \\ \end{bmatrix}$ ，其中 $\mu_j$ 为第 $j$ 个属性的均值。于是可以得出属性的协方差矩阵 $\Sigma_F= \frac{1}{m} \textbf{\emph D}_{mn}^{T} \textbf{\emph D}_{mn}$ ，其中 $\Sigma_F$ 是一个形状为 $n \times n$ 的实对称矩阵。对 $\Sigma_F$ 进行特征分解，即存在正交矩阵 $\textbf{\emph U}$ ，使得 $\Sigma_F = \textbf{\emph U} \Lambda \textbf{\emph U}^T$ ，其中 $\Lamba$ $\Lambda$ 为 $\Sigma_F$ 的特征矩阵。反过来说，矩阵 $\textbf{\emph U}$ 可以使 $\Sigma_F$ 对角化，即 $\textbf{\emph U}^{-1} \Sigma_F \textbf{\emph U} = \Lambda$ 。（注：这里用了线性代数的一个重要定理：每个实对称阵都可以分解成实特征向量和实特征值： $\textbf{\emph A} = \textbf{\emph Q} \Lambda \textbf{\emph Q}^T$ ，其中 $\textbf{\emph Q}\textbf{\emph Q}^T=\textbf{\emph E}$ ）

因此通过线性变化（矩阵） $\textbf{\emph U}$ ，可以将特征矩阵 $\textbf{\emph F}_{mn}$ 转换为线性无关的特征矩阵，即 $\textbf{\emph F}_{mn}' = \textbf{\emph F}_{mn} \textbf{\emph U}$ ，此时 $\textbf{\emph F}_{mn}'$ 的协方差矩阵就是对角阵 $\Lambda$ ， $\Lambda$ 对角线上的值都是 $\textbf{\emph F}_{mn}'$ 各列的方差。那么 $\textbf{\emph F}_{mn}'$ 的标准差便是 $\Lambda^{\frac{1}{2}}$ 。把转换过的特征矩阵 $\textbf{\emph F}_{mn}'$ 的各个属性的方差转换为1（每列除以每列的标准差），即 $\textbf{\emph F}_{mn}' \Lambda^{- \frac{1}{2}}$ 。

设 $\textbf{\emph F}_{mn}$ 中有两个对象 $\textbf{\emph x}$ 和 $\textbf{\emph y}$ ，设 $\textbf{\emph x}'$ 和 $\textbf{\emph y}'$ 分别是对 $\textbf{\emph x}$ 和 $\textbf{\emph y}$ 进行线性变换后得到的结果，它们线性无关，并且方差为1，那么 $\textbf{\emph x}' = \textbf{\emph x}\textbf{\emph U} \Lambda^{-\frac{1}{2}}$ ， $\textbf{\emph y}' = \textbf{\emph y}\textbf{\emph U} \Lambda^{-\frac{1}{2}}$ 。 $\textbf{\emph x}'$ 和 $\textbf{\emph y}'$ 的 $L_2$ 范数的平方可以表示为：

$\begin{align*} \\d^2 \left ( \textbf{\emph x'} , \textbf{\emph y'} \right ) & = \left ( \textbf{\emph x} ' - \textbf{\emph y} ' \right ) \left ( \textbf{\emph x} ' - \textbf{\emph y} ' \right )^T \\ & = \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \textbf{\emph U} \Lambda^{-\frac{1}{2}} \Lambda^{-\frac{1}{2}T} \textbf{\emph U}^T \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T \\ & = \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \textbf{\emph U} \Lambda^{-1} \textbf{\emph U}^T \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T \\ & = \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \left (\textbf{\emph U} \Lambda \textbf{\emph U}^T \right )^{-1} \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T \\ & = \left ( \textbf{\emph x} - \textbf{\emph y} \right ) \Sigma_F^{-1} \left ( \textbf{\emph x} - \textbf{\emph y} \right )^T \\ \end{align*}$

注：《数据挖掘导论》p48的等式（2-14）实际上是一个 $L_2$ 范数的平方。

3.香农熵的值域

在离散的情况下，香农熵公式为： $H(\mathrm{p}) = -\sum_{i=1}^{n} p_i \log_{m} p_i$ ，表示 $n$ 个事件所蕴含的信息总量，其中 $p_i \geq 0 \quad and \quad\sum_{i=1}^{n} p_i =1$ ，由此可以轻松得出 $H(\mathrm p) \geq 0$ 。由于 $H(\mathrm p)$ 的Hessian矩阵是负定的，所以 $H(\mathrm p)$ 是一个上凸函数， $H(\mathrm p)$ 存在最大值，那么极值问题可以归纳为：

$\begin{align*} \min & \quad p_i \log_{m}p_i \\ s.t. & \quad \sum_{i=1}^{n} p_i -1=0 \end{align*}$

构建Lagrange函数：

$L = \sum_{i=1}^{n} p_i \log_{m}p_i + \lambda (\sum_{i=1}^{n} p_i - 1)$

求偏导可得：

$\begin{align*} \frac{\partial L}{\partial p_i} &= \frac{1}{\ln m} +\log_{m}p_i + \lambda =0 \qquad &(1) \\ \frac{\partial L}{\partial \lambda} &= \sum_{i=1}^{n}p_i -1=0 \qquad &(2) \end{align}$

由等式（组）1和等式2可得： $\log_{m}p_1 = \log_{m}p_2 = \dots =\log_{m}p_n=-(\lambda +\frac{1}{\ln m})$ ，即 $p_i=\frac{1}{n}$ 。此时，香农熵 $H_{\max}(\mathrm{p}) = \sum_{i=1}^{n} \frac{\log_{m} n }{n}$ ，而且当 $m=n$ 时， $H_{\max}(\mathrm{p}) = 1$ 。

综上所述，当所有事件按相同概率均匀分布时，香农熵最大。而且当对数的底数等于事件总数时，香农熵的最大值为1（以2为底数的香农熵上来就是归一化的）。

另外半个肖恩

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘笔记 - 度量

参考文献《数据挖掘导论》 2.4 相似性和向异性的度量《深度学习》 3.13 信息论度量一、数据对象相似性和向异性的度量（一）概述1.定义非正式的定义为，相似度为两个对象相似程度的度量，两个对象越相似，相似度就越高。相似度通常在0（完全不相似）到1（完全相似）之间取值。相异度（距离）表示两个对象的差异程度，相异度有事在之间取值，有时相异度在。下表是不同类型的属性...
复制链接

扫一扫