无监督学习

guanyue.space

于 2021-07-28 10:21:28 发布

阅读量463

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_34620855/article/details/119172287

版权

笔记专栏收录该内容

19 篇文章 0 订阅

订阅专栏

无监督学习包括特征学习、概率密度估计和聚类等方法。主成分分析（PCA）用于数据降维，寻找样本的主要变化方向。稀疏编码通过寻找数据的稀疏表示，提高学习模型的效率。自编码器是无监督学习的一种，通过编码和解码过程学习数据的有效表示，可用于数据预处理。聚类方法如K-Means、DBSCAN等，依据样本间距离或密度关系进行分组。这些技术在机器学习中广泛应用于数据理解、降维和模式发现。

摘要由CSDN通过智能技术生成

从无标签的数据中学习出一些有用的模式．

无监督学习就是发现隐藏的数据中的有价值信息，包括有效的特征、类别、结构以及概率分布等．

典型的无监督学习问题可以分为以下几类：

无监督特征学习（Unsupervised Feature Learning） 从无标签的训练数据中挖掘有效的特征或表示．特征学习

概率密度估计（Probabilistic Density Estimation）简称密度估计， 根据一组训练样本来估计样本空间的概率密度． 密度估计可以分为参数密度估计和非参数密度估计
- 参数密度估计是假设数据服从某个已知概率密度函数形式的分布（比如高斯分布），然后根据训练样本去估计概率密度函数的参数．高斯过程 …
- 非参数密度估计是不假设数据服从某个已知分布，只利用训练样本对密度进行估计，可以进行任意形状密度的估计．非参数密度估计的方法有直方图、核密度估计等．
聚类（Clustering） 将一组样本根据一定的准则划分到不同的组（也称为簇（Cluster））． 一个比较通用的准则是组内样本的相似性要高于组间样本的相似性．常见的聚类算法包括K-Means算法、谱聚类等

无监督特征学习

从无标注的数据中自动学习有效的数据表示，从而能够帮助后续的机器学习模型更快速地达到更好的性能

主成分分析（Principal Component Analysis，PCA）

一种最常用的 数据降维 方法，使得在转换后的空间中 数据的方差最大 $\textcolor{red}{更加离散}$ $\rightarrow$ 数据差异性更大，样本丰富，尽可能少的减少样本特性的丢失 ${矩阵的特征向量与特征值}$
在这里插入图片描述

假设有一组D维的样本 $x^{(n)}\in \mathbb{R}^D, 1\le n \le N$ , 将其投影到一维空间中 ，投影向量为 $w\in \mathbb{R}^D$ . (不失一般性，我们限制𝒘的模为1，即 $w^Tw=1$ ) 每个样本点 $x^{(n)}$ 投影之后的表示为

$z^{(n)}=w^Tx^{(n)}$

用矩阵 $X=[x^{(1)},x^{(2)},...,x^{(N)}]$ 表示输入样本, $\bar x=\frac 1 N \sum_{n=1}^N{x^{(n)}}$ 为原始样本的中心点，所有样本投影后的方差为
$\begin{aligned} \sigma(X;w)&= \frac 1 N \sum_{n=1}^N{(w^Tx^{(n)}-w^T \bar x)^2}\\ &=\frac 1 N (w^TX-w^T\bar X)(w^TX-w^T\bar X)^T\\ &=w^T\Sigma w \end{aligned}$

$\textcolor{blue}{矩阵计算,important!!}$

其中 $\bar X=\bar x1_D^T$ 是向量 $\bar x$ 和 D 维全1的向量 $1_D$ 的外积？？高维向量的外积计算？？ $\textcolor{red}{？？即有 𝐷 列 𝒙̄组成的矩阵？？}$
$\Sigma=\frac 1 N (X-\bar X)(X-\bar X)^T$ 是原始样本的协方差矩阵．

最大化投影方差 $\sigma(X;w)$ 并满足 $w^Tw=1$ ，利用拉格朗日方法转换为无约束优化问题，

$f(w)=\max_w{w^T\Sigma w+\lambda(1-w^Tw)}$

$\frac {\partial f} {\partial w}=0 \quad则 \Sigma w=\lambda w$

$w$ 是协方差矩阵 $\Sigma$ 的特征向量， $\lambda$ 为特征值．同时
$\sigma(X;w)=w^T\Sigma w=w^T \lambda w=\lambda$
$\lambda$ 也是投影后样本的方差

因此，主成分分析可以转换成一个矩阵特征值分解问题，投影向量 $w$ 为矩阵 $\Sigma$ 的最大特征值对应的特征向量．

如果要通过投影矩阵 $\mathbf{W\in R^{D\times D'}}$ 将样本投到 $D^{'}$ 维空间，投影矩阵满足 $W^TW=I$ 为单位阵， 只需要将 $\Sigma$ 的特征值从大到小排列，保留前 $D^{'}$ 个特征向量，其对应的特征向量即是最优的投影矩阵．
$\Sigma W= W diag(\lambda)$
$\lambda =[\lambda_1,...,\lambda_{D'}]$ 为S的前 $D^{'}$ 个最大的特征值．

主成分分析是一种无监督学习方法，可以作为监督学习的数据预处理方法， 用来去除噪声并减少特征之间的相关性，但是它并不能保证投影后数据的类别可分性更好．

稀疏编码(Sparse Coding)

受哺乳动物视觉系统中简单细胞感受野而启发的模型．

在哺乳动物的初级视觉皮层（Primary Visual Cortex）中，每个神经元仅对处于其感受野中特定的刺激信号（比如特定方向的边缘、条纹等特征）做出响应． 感受野：卷积窗口&支队特定刺激响应：卷积核, but此处侧重点不同，卷积神经网络 $\rightarrow$ 过程此处 $\rightarrow$ 结果

局部感受野可以被描述为具有空间局部性、方向性和带通性

外界信息经过编码后仅有一小部分神经元激活，即外界刺激在视觉神经系统的表示具有很高的稀疏性．

编码的稀疏性在一定程度上符合生物学的低功耗特性．

在数学上，（线性）编码是指给定一组基向量 $A=[a_1,...,a_M]$ ,将输入样本 $x\in R^D$ 用该基向量表示 okay
$x=\sum_{m=1}^M{z_ma_m}=Az$

编码即为在新基底下的坐标 $z=[z_1,...,z_M]$ , 基向量A成为字典

编码是对 $D$ 维空间中的样本 $x$ 找到其在 $P$ 维空间中的表示（或投影）， 其目标通常是编码的各个维度都是统计独立的，并且可以重构出输入样本．
编码的关键是找到一组“完备”的基向量 $A$ ，比如主成分分析等．但是主成分分析得到的编码通常是稠密向量，没有稀疏性

$\rightarrow$ 稀疏

为了得到稀疏的编码，我们需要找到一组“过完备”的基向量（即 $M > D$ ）来进行编码．在过完备基向量之间往往会存在一些冗余性，因此对于一个输入样本，会存在很多有效的编码．如果加上稀疏性限制，就可以减少解空间的大小，得
到“唯一”的稀疏编码． okay

给定一组 $N$ 个输入向量 $x^{(1)},...,x^{(N)}$ ，其稀疏编码的目标函数定义为 $x = A z$

$L(A,Z)=\sum_{n=1}^N{(\Vert x^{(n)} -Az^{(n)}\Vert^2 + \eta\rho (z^{(n)}))}$

$\rho(\cdot)$ 是一个稀疏性衡量函数， $\eta$ 是一个超参数，用来控制稀疏性的强度
稀疏性衡量函数 $\rho(z)$ 是给向量𝒛一个标量分数． 𝒛越稀疏， $\rho(z)$ 越小．

由于通常比较难以得到严格的稀疏向量，因此如果一个向量只有少数几个远大于零的元素，其他元素都接近于 0，我们也称这个向量为稀疏向量．

$\rho(z)$ 的定义 ( $z\in R^M$ )

$\ell_0$ 范数非零维度但 $\ell_0$ 范数不满足连续可导，因此很难进行优化
$\rho(z)=\sum_{m=1}^M{I(\vert z_m\vert >0)}$
$\ell_1$ 范数
$\rho(z)=\sum_{m=1}^M{\vert z_m\vert}$
对数函数
$\rho(z)=\sum_{m=1}^M{log(1+z_m^2)}$
指数函数
$\rho(z)=\sum_{m=1}^M{-exp(z_m^2)}$

训练方法

目的：选取合适的基向量并编码

给定一组 𝑁 个输入向量 $\lbrace x^{(n)}\rbrace_{n=1}^N$ ，需要同时学习 基向量 𝑨 以及每个输入样本对应的稀疏编码 $\lbrace z^{(n)} \rbrace_{n=1}^N$ ．

在这里插入图片描述

稀疏编码的优点

稀疏编码的每一维都可以被看作一种特征．和基于稠密向量的分布式表示相比，稀疏编码具有更小的计算量和更好的可解释性等优点．稀疏极致 $\rightarrow$ one-hot编码

计算量 稀疏性带来的最大好处就是 可以极大地降低计算量．
可解释性 因为稀疏编码只有少数的非零元素，相当于将一个输入样本表示为少数几个相关的特征．这样我们可以更好地描述其特征，并易于理解．
特征选择 可以实现特征的自动选择，只选择和输入样本最相关的少数特征， 从而更高效地表示输入样本，降低噪声并减轻过拟合．

自编码器

通过无监督的方式来学习一组数据的有效编码（或表示）．

假设有一组𝐷 维的样本 $x^{(n)} \in R^D,1\le n\le N$ ，自编码器将这组数据映射到特征空间得到每个样本的编码 $z^{(n)} \in R^D, 1\le n\le N$ ，并且希望这组编码可以重构出原来的样本.

编码器(Encoder) $R^D \rightarrow R^M$
解码器(Decoder) $R^M \rightarrow R^D$

$R(x)\le R(z)$ 若要求稀疏 $R (z)$ 尽可能的大于 $R (x)$
方阵A – 编码 $x = A z$ 解码 $z=A^{-1}x$ $\rightarrow$ 矩阵处理

自编码器的学习目标是最小化重构错误（Reconstruction Error）：
$\begin{aligned} L&=\sum_{n=1}^N{\Vert x^{(n)} -g(f(x^{(n)})) \Vert^2}\\ &=\sum_{n=1}^N{\Vert x^{(n)} - f\circ g(x^{(n)}) \Vert^2} \end{aligned}$

如果 $M < D$ ，自编码器相当于是一种降维或特征抽取方法．
如果 $M\ge D$ ，一定可以找到一组或多组解使得 $f\circ g$ 为单位函数（Identity Function），并使得重构错误为 0． 然而，这样的解并没有太多的意义． $\tiny{数据降维便于处理，除非SVM无限高维可以采用核函数解决}$
但是，如果再加上一些附加的约束，就可以得到一些有意义的解，比如编码的稀疏性、取值范围， $f$ 和 $g$ 的具体形式等．

如果我们让编码只能取 $K$ 个不同的值( $K < N$ )，那么自编码器就可以转换为一个 $K$ 类的聚类（Clustering）问题．

在这里插入图片描述

对于样本𝒙，自编码器的中间隐藏层的活性值为𝒙的编码，即
$z=f(W^{(1)}x+b^{(1)})$
自编码器的输出为重构的数据
$x'=f(W^{(2)}z+b^{(2)})$

如果令 $W^{(2)}=W^{(1)^T}$ ，称为捆绑权重（Tied Weight）．捆绑权重自编码器的参数更少，因此更容易学习．此外，捆绑权重还在一定程度上起到正则化的作用

给定一组样本 $x^{(n)}\in R^D, 1\le n \le N$ ，其重构错误为

$L=\sum_{n=1}^N{\Vert x^{(n)}-x'^{(n)}\Vert ^2 +\lambda \Vert W \Vert_F^2}$

我们使用自编码器是为了得到 有效的数据表示 ，因此在训练结束后，我们一般会去掉解码器，只保留编码器．编码器的输出可以直接作为后续机器学习模型的输入．

稀疏自编码器

$R^D$ 维编码到 $R^M$ 空间稀疏： $M > D$

通过给自编码器中隐藏层单元 𝒛 加上稀疏性限制，自编码器可以学习到数据中一些有用的结构．
给定𝑁 个训练样本 $\lbrace x^{(n)}\rbrace_{n=1}^N$ ，稀疏自编码器的目标函数为

$L=\sum_{n=1}^N{\Vert x^{(n)}-x'^{(n)}\Vert ^2 + \eta \rho(Z)+\lambda \Vert W \Vert^2}$

$\rho(z)$ 为稀疏矩阵的度量，数值越小越稀疏
此外， $\rho(z)$ 还可以定义为一组训练样本中每一个神经元激活的概率． Reason

给定𝑁 个训练样本，隐藏层第𝑗 个神经元平均活性值为
$\hat \rho_j=\frac 1 N \sum_{n=1}^N{z_j^{(n)}}$

其中 $\hat \rho_j$ 可以近似地看作第 𝑗 个神经元激活的概率．我们希望 $\hat \rho_j$ 接近于一个事先给定的值 $\rho^*$ ，比如0.05，可以通过KL距离来衡量 $\hat \rho_j$ 和 $\rho^*$ 的差异，即
$KL(\rho^*\Vert \hat \rho_j)=\rho^* log{\frac {\rho^*}{\hat \rho_j}} + (1-\rho^*)log{\frac {1- \rho^*}{1-\hat \rho_j}}$
稀疏性度量函数定义为
$\rho(Z)=\sum_{j=1}^P{KL(\rho^* \Vert \hat \rho_j)}$

熵

一个热力学系统的无序程度．在信息论中，熵用来衡量一个随机事件的不确定性．

信息熵 反应了一个系统的有序化程度，一个系统越是有序，那么它的信息熵就越低，反之就越高。

KL距离（Kullback-Leibler Divergence）

如果一个随机变量X的可能取值为 $X=[x_1,...,x_n]$ ,对应的 $x_i$ 出现的概率为 $p(X=x_i)\in (0,1]$ ,那么随机变量 X 的熵定义为
$H(X)=-\sum_{i=1}^n{p(x_i)logp(x_i)} \ge 0$

相对熵 又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-Leible散度（即KL散度）等

设 $p (x)$ 和 $q (x)$ 是X取值的两个概率分布，则 p 对 q的的相对熵为
$D(p\Vert q)=\sum_{i=1}^n{p(x_i)log{\frac {p(x_i)} {q(x_i)}}}$

在一定程度上，熵可以度量两个随机变量的距离。KL散度是两个概率分布P和Q差别的非对称性的度量。 – 相似度越高，相对熵越小
KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数

相对熵的性质

尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为 它不具有对称性 $D(p\Vert q)\ne D(q\Vert p)$

举例：
在这里插入图片描述

在这里插入图片描述

相对熵的值为 非负值 ，即 $D(p\Vert q)\ge 0$

证明：
吉布斯不等式
若有 $\sum_{i=1}^n{p_i}=\sum_{i=1}^n{q_i}=1$ 且 $p_i, q_i \in(0,1]$ 那么有
$-\sum_{i=1}^n{p_ilogp_i}\le -\sum_{i=1}^n{p_ilogq_i}$
当且仅当 $\forall i , p_i=q_i$ 时等号成立。

吉布斯不等式等价于：
$0\ge \sum_{i=1}^n{p_ilogq_i}-\sum_{i=1}^n{p_ilogp_i} =\sum_{i=1}^n{p_ilog {\frac {q_i}{p_i}}} = -D_{KL}(P\Vert Q)$

欲证明小于等于0
由 $\ln(x)\le x-1$ 则
$\sum_{i=1}^n{p_ilog {\frac {q_i}{p_i}}} \le \sum_{i=1}^n{p_i (\frac {q_i}{p_i}-1)}=0$
ok

KL距离的几个用途：

衡量两个概率分布的差异。
衡量利用概率分布Q 拟合概率分布P 时的能量损耗，也就是说拟合以后丢失了多少的信息。
衡量两个概率分布的相似度，在运动捕捉里面可以衡量未添加标签的运动与已添加标签的运动，进而进行运动的分类。

堆叠自编码

两层神经网络 $\rightarrow$ 深层神经网络
深层神经网络作为自编码器提取的数据表示一般会更加抽象，能够更好地捕捉到数据的语义信息．

降噪自编码器

希望自编码器也能够从部分损坏的数据中得到有效的数据表示，并能够恢复出完整的原始信息． $\leftarrow$ 得益于高维信息的冗余性

使用自编码器是为了得到有效的数据表示，而有效的数据表示除了具有最小重构错误或稀疏性等性质之外，还可以要求其具备其他性质，比如 对数据部分损坏（Partial Destruction）的鲁棒性

降噪自编码器（Denoising Auto-Encoder）就是一种通过引入噪声来增加编码鲁棒性的自编码器．

对于一个向量 $x$ ，我们首先根据一个比例 $\mu$ 随机将 $x$ 的一些维度的值设置为0，得到一个被损坏的向量 $\tilde{x}$ , 然后将被损坏的 $\tilde x$ 输入给编码器得到z, 并通过解码器重构出原始未损坏 $x$

在这里插入图片描述

概率密度估计

概率密度估计（Probabilistic Density Estimation），简称密度估计（Density Estimation），是基于一些观测样本来估计一个随机变量的概率密度函数．

密度估计方法可以分为两类：参数密度估计和非参数密度估计．

参数密度估计

参数密度估计（Parametric Density Estimation）是根据先验知识假设随机
变量服从某种分布，然后通过训练样本来估计分布的参数。

对于已知样本 $X=\lbrace x_i \rbrace_{i=1}^N$ 以及各样本发生概率 $p(x_i)$ $\rightarrow$ 预测新的样本 $\hat x$ 出现的概率

$p(x_i)=p(x_i;\theta)$ 存在参数 $\theta$

频率派
认为 $\theta$ 为参数， $p(x_i)$ 的取值只与 $\theta$ 相关，确定 $\theta$ 后，代入新的样本后即可获取新样本 $\hat x$ 的概率.
经典算法：最大似然估计(MLE)
$\theta_{MLE} =\arg \max_{\theta} {\sum_{i=1}^N{log p(x_i;\theta)}}$

目的
$p(\hat x)=p(\hat x\vert \theta_{MLE})$

贝叶斯派
认为 $\theta$ 是一个参数且也服从一个概率分布 $\theta \sim p(\theta)$ 先验概率

$p(\theta_i \vert x)=\frac {p(x \vert \theta_i) \cdot p(\theta_i)}{p(x)}$

$p (x)$ 根据全概率公式求出 $p(x)=\sum_{离散的}{p(x|\theta)p(\theta)}=\int p( x \vert \theta) p(\theta)d\theta=C$ 是一个与 $\theta$ 无关的常量， $p(x\vert \theta_i)$ 为 $\theta = \theta_i$ 发生的条件下，结果x 发生的概率似然
$p(\theta_i \vert x)$ 为后验概率

$p(\theta_i \vert x) 正比于 p(x \vert \theta_i) \cdot p(\theta_i)$

经典算法：最大后验估计(MAP)
$\theta_{MAP}= \arg \max_{\theta}{p(\theta|x)} \approx \arg \max_{\theta}{p(x \vert \theta) \cdot p(\theta)}$

贝叶斯估计
计算后验概率：
$p(\theta \vert x)= \frac {p(x\vert \theta)p(\theta)}{p(x)=\int p(x\vert \theta)p(\theta)d\theta}$

目的
贝叶斯预测
$\begin{aligned} p(\hat x \vert X)&=\int p(\hat x,\theta \vert X)d\theta\\ &=\int\frac {p(\hat x,\theta , X)} {p(X)} d\theta \\ &=\int\frac {p(\hat x\vert \theta , X)\cdot p(\theta ,X)} {p(X)} d\theta \\ & 当\theta 固定时，\hat x与 X 相互独立则有 p(\hat x\vert \theta, X)=p(\hat x \vert \theta)\\ &= \int p(\hat x\vert \theta) p(\theta \vert X) d\theta \end{aligned}$

正太分布 & 多项分布

在实际应用中，参数密度估计一般存在以下问题：

模型选择问题：即如何选择数据分布的密度函数．实际数据的分布往往是非常复杂的，而不是简单的正态分布或多项分布．
不可观测变量问题：即我们用来训练的样本只包含部分的可观测变量， 还有一些非常关键的变量是无法观测的 ，这导致我们很难准确估计数据的真实分布．
维度灾难问题：即高维数据的参数估计十分困难．随着维度的增加，估计参数所需要的样本数量指数增加．在样本不足时会出现过拟合．

非参数密度估计

不假设数据服从某种分布，通过将样本空间划分为不同的区域并估计每个区域的概率来近似数据的概率密度函数．

对于高维空间中的一个随机向量𝒙，假设其服从一个未知分布 $p (x)$ ，则𝒙落入空间中的小区域 $R$ 的概率为
$P=\int_{x\in R} p(x)dx$

给定 N 个训练样本 $D=\lbrace x^{(n)} \rbrace_{n=1}^N$ ，落入区域ℛ的样本数量𝐾 服从二项分布：
$P_K= {n\brace k}P^K(1-P)^{N-K}$

二项分布 $\quad D(X)=np(1-p)$

当 𝑁 非常大时，我们可以近似认为 $P\approx \frac K N$
假设区域ℛ 足够小，其内部的概率密度是相同的，则有 $P\approx p(x)V$ 其中𝑉 为区域ℛ 的体积
结合上述两个公式，得到
$p(x)\approx \frac K{NV}$
要准确地估计 $p (x)$ ，需要尽量使得样本数量 𝑁 足够大，区域体积 𝑉 尽可能地小．

但在具体应用中，样本数量一般是有限的，过小的区域会
导致落入该区域的样本比较少，这样估计的概率密度就不太准确．
因此，实践中非参数密度估计通常使用两种方式：

固定区域大小𝑉，统计落入不同区域的数量，这种方式包括直方图方法和核方法两种；
改变区域大小以使得落入每个区域的样本数量为𝐾 ，这种方式称为K近邻方法．

直方图法

以一维随机变量为例，首先将其取值范围分成 𝑀 个连续的、不重叠的区间（bin），每个区间的宽度为 $\Delta_m$ ．给定𝑁 个训练样本 $D=\lbrace x^{(n)} \rbrace_{n=1}^N$ ，我们统计这些样本落入每个区间的数量 $K_m$ ，然后将它们归一化为密度函数．

$p_m=\frac {K_m} {N\Delta_m}, \quad 1\le m \le M$

直方图方法的关键问题是如何选取一个合适的区间宽度 $D e l t a$ ．

如果 $D e l t a$ 太小，那么落入每个区间的样本数量会比较少，其估计的区间密度也具有很大的随机性．
如果 $D e l t a$ 太大，其估计的密度函数变得十分平
滑，很难反映出真实的数据分布

直方图通常用来处理低维变量，可以非常快速地对数据的分布进行可视化，但其缺点是很难扩展到高维变量

核方法

从一维区间之间判定是否落在该区间 $\rightarrow$ 高维区间采用核函数判定

核密度估计（Kernel Density Estimation），也叫 Parzen 窗方法，是一种直方图方法的改进．

假设 $R$ 为 $D$ 维空间中的一个以点 $x$ 为中心的“超立方体”，并定义核函数（Kernel Function）为
$\phi(\frac {z-x}{H})= \begin{cases} 1 & if \vert z_i-x_i \vert < \frac H 2,1\le i \le D\\ 0 & else \end{cases}$
判定一个样本 $z$ 是否落入该超立方体中，其中 $H$ 为超立方体的边长，也称为核函数的宽度．

给定𝑁 个训练样本 $D=\lbrace x^{(n)} \rbrace_{n=1}^N$ ，落入区域 R 的样本数

$K=\sum_{n=1}^N{\phi(\frac {x^{(n)}-x} H)}$

点x的密度估计为
$p(x)=\frac K {N \cdot H^D}$
其中 $H^D$ 表示超立方体 $R$ 的体积．

高斯核函数
$\phi(\frac {z-x} H)=\frac 1 {(2\pi)^{1/2}H} exp(- \frac {\Vert z-x \Vert^2} {2H^2})$

其中 $H^2$ 是高斯核函数的方差．这样，点 $x$ 的密度估计为
$p(x)=\frac 1 N \sum_{n=1}^N{\frac 1 {(2\pi)^{1/2}H} exp(- \frac {\Vert x^{(n)}-x \Vert^2} {2H^2})}$

K近邻方法

设置一种可变宽度的区域，并使得落入每个区域中样本数量为固定的𝐾．
要估计点𝒙的密度，首先找到一个以𝒙为中心的球体，使得落入球体的样本数量为K，然后再根据 $p\approx \frac K {NV}$ 以计算出点𝒙的密度。

在 K 近邻方法中，𝐾 的选择也十分关键．如果 𝐾 太小，无法有效地估计密度函数；而𝐾 太大也会使得局部的密度不准确，并且增加计算开销． – 超参数

聚类(Clustering)

物以类聚，人以群分

将数据集中样本划分为若干个通常互不相交的子集，每个子集称为一个簇（Cluster）

假定样本集 $D=\lbrace x_1, x_2,... , x_m \rbrace$ 包含m个无标记样本，每个样本 $x_i=(x_{i1};x_{i2};....;x_{in})$ 是一个 $n$ 维特征向量，则聚类算法将样本集 $D$ 划分为k个不相交的簇 $\lbrace C_l \vert l=1,2,....,k\rbrace$ ,其中 $C_{l'} \cap C_l=\emptyset, l\not =l'$ 且 $D=\cup_{l=1}^kC_l$ . 相应地，用 $\lambda_j\in \lbrace 1,..,k\rbrace$ 表示样本 $x_j$ 的簇标记(cluster label),即 $x_j \in C_{\lambda_j}$ .于是聚类的结果向量可表示为 $\lambda=(\lambda_1;\lambda_2,...,\lambda_m)$

Simlarity

性能度量

聚类的“有效性指标”(validity index) – 即监督学习的期望函数（损失函数）

外部指标：聚类结果于某个“参考模型” (Reference Model) 进行比较
内部指标：直接考察聚类结果而不利用任何参考模型

聚类性能评价的其他
在这里插入图片描述

外部指标

将样本集 $D=\lbrace x_1, x_2,... , x_m \rbrace$ 通过聚类算法簇划分为 $C=\lbrace C_1, C_2,...,C_k \rbrace$ ，参考模型给出的簇划分为 $C^*=\lbrace C_1^*, C_2^*,...,C_s^*\rbrace$ . 相应地,簇标记向量分别为 $\lambda,\lambda^*$
$\begin{aligned} a&= \vert SS\vert , &SS=\lbrace (x_i,x_j) \vert \lambda_i=\lambda_j, \lambda_i^* =\lambda_j^*,i<j \rbrace,\\ b&= \vert SD\vert , &SD=\lbrace (x_i,x_j) \vert \lambda_i=\lambda_j, \lambda_i^* \not =\lambda_j^*,i<j \rbrace,\\ c&= \vert DS\vert , &DS=\lbrace (x_i,x_j) \vert \lambda_i\not =\lambda_j, \lambda_i^* =\lambda_j^*,i<j \rbrace,\\ d&= \vert DD\vert , &DD=\lbrace (x_i,x_j) \vert \lambda_i\not =\lambda_j, \lambda_i^* \not =\lambda_j^*,i<j \rbrace, \end{aligned}$

每个样本对 $x_i,x_j)$ ,鉴于 $i < j$ 有 $a+b+c+d=\frac {m\cdot (m-1)} 2$
基于以上定义，常用的性能度量的外部指标：

Jaccard系数
$JC=\frac a {a+b+c}$
FM指数(Fowllkes and Mallows Index简称FMI)
$FMI=\sqrt{\frac a {a+b}\cdot \frac a {a+c}}$

以上两种只考虑匹配结果，而未考虑未匹配情形 $d$ ,但是 $d$ 的情形不一定对也不一定不对…

Rand指数
$RI=\frac {2(a+d)}{m(m-1)}$

上述性能指标结果在 $[0, 1]$ 之间，值越大越好,okay

内部指标

考虑簇划分 $C=\lbrace C_1, C_2,...,C_k \rbrace$ 定义
$\begin{aligned} 簇内样本平均距离 && avg(C) &=\frac 2 {\vert C \vert (\vert C \vert -1)} \sum_{1\le i < j \le \vert C\vert} dist(x_i,x_j)\\ 簇内样本之间最远距离 && diam(C)&=\max_{1\le i < j \le \vert C\vert}dist(x_i,x_j)\\ 簇C_i 与簇 C_j样本最近距离 && d_{min}(C_i,C_j)&=\min_{x_i\in C_i,x_j\in C_j} dist(x_i,x_j)\\ 簇C_i 与簇 C_j中心点间距离 && d_{cen}(C_i,C_j)&=dist(\mu_i,\mu_j) \end{aligned}$

$dist(\cdot)$ 计算两个样本之间的距离
$\mu$ 代表簇 $C$ 的中心点 $\mu=\frac 1 {\vert C\vert} \sum_{1\le i \le \vert C\vert}x_i$
基于以上定义有

DB指数
$DBI=\frac 1 k\sum_{i=1}^k{\max_{i\not = j}(\frac {avg(C_i)+avg(C_j)}{d_{cen}(C_i,C_j)})}$
sum{任意两簇平均距离/它们中心点间距离即簇间距离} – 越小越好okay
Dunn指数
$DI=\min_{1\le i\le k}\lbrace \min_{i\not =j}(\frac {d_{min}(C_i,C_j)}{\max_{1\le l \le k}diam(C_l)})\rbrace$
簇间间最小距离/簇内最大距离 – 越大越好okay

准则： 簇内距离越小，簇间距离越大

距离计算

距离度量函数 $dist(\cdot)$ ,需要满足性质

非负性 $dist(x_i,x_j)\ge 0$
同一性 $dist(x_i,x_j) =0$ 当且仅当 $x_i=x_j$
对称性 $dist(x_i,x_j) = dist(x_j,x_i)$
直递性（三角不等式） $dist(x_i,x_j)+dist(x_i,x_k)\ge dist(x_j,x_k)$

样本点 $x_i=(x_{i1};x_{i2};....;x_{in})$ 与 $x_j$ 之间距离计算

常用的距离度量函数：
闵可夫斯基距离
$dist_{mik}(x_i,x_j)=(\sum_{u=1}^n{\vert x_{iu}-x_{ju} \vert^p})^{\frac 1 p}$
当 $p\ge 1$ 满足距离度量的基本要求。

$p = 1 . . . p = 2 . . .$ ok
然而属性的数据类型另外每一个维度的单位。。。

我们通常将数据属性划分为连续属性和离散属性。离散属性是否定义了“序” {1,2,3} 可以用闵可夫斯基距离 {“人”,“马”,“人马”} no

对于无序属性可采用 VDM(Value Difference Metric)
定义： $m_{u,a}$ 属性 $u$ 上取值为 $a$ 的样本数 $m_{u,a,i}$ 第i 个样本簇中属性 $u$ 上取值为 $a$ 的样本数样本簇总数 $k$

属性u上两个离散值a,b之间的VDM距离
$VDM_p(a,b)=\sum_{i=1}^k\vert \frac {m_{u,a,i}} {m_{u,a}} -\frac {m_{u,b,i}} {m_{u,b}} \vert^p$

簇中u取值为a,b占比之差

联合闵可夫斯基距离与VDM – 处理前 $n_c$ 个有序属性、 $n-n_c$ 个无序属性
$MinkovDM_p(x_i,x_j)=(\sum_{u=1}^{n_c}{\vert x_{iu}-x_{ju} \vert^p} + \sum_{u=n_c+1}^n{VDM_p(x_{iu},x_{ju})})^{\frac 1 p}$

当样本空间中不同属性的重要性不同时，使用加权距离 $\sum{w_u\cdot dist(x_{iu},x_{ju})},\sum{w_i}=1$

距离作为相似度度量时，未必一定要满足距离度量的所有性质，尤其是直递性。

“人”,“马” 分别与 "人马"相似，but “人"与"马” no。。。，此时就不应该再满足直递性{非度量距离}, 此时需要选取合适度量标准 $\quad$ “距离度量学习”

在这里插入图片描述

原型聚类

假设聚类结构能通过一组原型刻画

k-means算法

给定样本集 $D=\lbrace x_1,x_2,...,x_m\rbrace$ , k-means算法针对聚类所得簇划分 $C=\lbrace C_1,C_2,...,C_k\rbrace$ 最小化平方误差

$E=\sum_{i=1}^{k}{\sum_{x\in C_i}\Vert x-\mu_i \Vert_2^2}$

其中 $\mu_i=\frac 1 {\vert C_i\vert}\sum_{x \in C_i}x$ 是簇 $C_i$ 的均值向量。

在这里插入图片描述

最小化 $E$ , 由于 $E$ 的定义…
在这里插入图片描述

优缺点
在这里插入图片描述

简单快捷

在这里插入图片描述

初始化均值向量陷入到局部最优解，
由于E的定义，对每一个样本点{噪点}进行计算，不适用球形邻域以外的

学习向量化(Learning Vector Quantization,LVQ)

LVQ假设数据样本带有类别标记，学习过程中使用监督信息来辅助聚类

给定样本集 $D=\lbrace (x_1,y_1),(x_2,y_2),...,(x_m,y_m)\rbrace$ 其中 $x_i$ 为n维类别标记 $x_{iu},u=1,2,...,n$ $y_i\in Y$ 为样本类别

LVQ的目标是学习一组n维原型向量 $\lbrace p_1,p_2,..,p_q \rbrace$ ,每个原型向量代表一个聚类簇，簇标记 $t_i\in Y$

在这里插入图片描述

高斯混合聚类

模式聚类

高斯混合(Mixture-of-Gaussian)聚类采用概率模型来表达聚类原型

高斯混合分布

$p_\mathcal{M}(x)=\sum_{i=1}^{k}{\alpha_i \cdot p(x\vert \mu_i,\Sigma_i)}$

$x_i \sim N(\mu_i,\Sigma_i^2)$ 另外为了满足概率密度函数的基本要求 $\sum_{i=1}^{k}{\alpha_i}=1, \forall \alpha_i>0$

假设样本的生成过程由高斯混合分布给出：首先，根据 $\alpha_1,\alpha_2,...,\alpha_k$ 定义的先验分布选择高斯混合成分，其中 $\alpha_i$ 为选择第 i 个混合成分的概率，然后，根据被选择的混合成分的概率密度函数进行采样，从而生成相应样本。 (贝叶斯ok)

若训练集 $D=\lbrace x_1,x_2,...,x_m\rbrace$ 由上述过程生成，令随机变量 $z_j \in \lbrace 1,2,..,k\rbrace$ 表示生成样本 $x_j$ 的高斯混合成分（ $\alpha_j$ ），其取值未知。显然 $z_j$ 的先验概率 $P(z_j=i)$ 对应于 $\alpha_i$ . 根据贝叶斯定理， $z_j$ 的后验分布对应于
$\begin{aligned} \gamma_{ji}&=p_\mathcal{M}(z_j=i\vert x_j)\\ &=\frac {P(z_j=i)\cdot p_\mathcal{M}(x_j\vert z_j=i)}{p_\mathcal{M}(x_j)}\\ &=\frac {\alpha_i \cdot p_\mathcal{M}(x_j\vert \mu_i,\Sigma_i)} {\sum_{l=1}^{k}{\alpha_l \cdot p_\mathcal{M}(x_j\vert \mu_l,\Sigma_l)}} \end{aligned}$

目的最大后验概率

当高斯混合分布已知时{即 $\lbrace \alpha_i,\mu_i,\Sigma_i \rbrace_{i=1,2,....,k}$ 已知}，高斯混合聚类将样本集D划分为k个簇 $C=\lbrace C_1,C_2,...,C_k\rbrace$ ,每个样本x_j的簇标记 $\lambda_j$ 如下确定：
$\lambda_j=\arg \max_{i\in\lbrace 1,2,...,k\rbrace}\gamma_{ji}$
因此从原型角度看，高斯混合聚类是利用概率模型对原型进行刻画，簇划分则由原型对后验概率确定。
在这里插入图片描述

密度聚类

假设聚类结构能通过样本分布的紧密程度确定，通常情形下，密度聚类算法从样本密度的角度考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

DBSCAN是一种著名的密度聚类算法，她是基于一组邻域(neighborhood)参数 $(\varepsilon,Minpts)$ 来刻画样本分布的紧密程度。

给定数据集 $D=\lbrace x_1,x_2,...,x_m\rbrace$ ，定义

$\varepsilon$ 邻域：对 $x_j\in D$ ,其 $\varepsilon$ 邻域包含样本集D中与 $x_j$ 距离不大于 $\varepsilon$ ，即 $N_{\varepsilon}(x_j)=\lbrace x_j\in D \vert dist(x_i,x_j)\le \varepsilon \rbrace$
核心对象(core object):若 $x_j$ 的 $\varepsilon$ 邻域至少包含 MinPts个样本，即 $\vert N_{\varepsilon}(x_j) \vert \ge Minpts$ ,则 $x_j$ 是一个核心对象；
密度直达(directly density-reachable):若 $x_j$ 位于 $x_i$ 的 $\varepsilon$ 邻域中，则称 $x_j$ 与 $x_i$ 密度直达；
密度可达(density-reachable)：对 $x_i$ 与 $x_j$ ，若存在样本序列 $p_1,p_2,...,p_n$ , 其中 $p_1=x_i,p_n=x_j$ 且 $p_i$ 与 $p_{i+1}$ 密度直达，则称 $x_i$ 与 $x_j$ 密度可达；
密度相连(density-connected): 对 $x_i$ 与 $x_j$ ,若存在 $x_k$ 使得 $x_i$ 与 $x_j$ 均由 $x_k$ 密度可达，则称 $x_i$ 与 $x_j$ 密度相连。

基于以上概念，DBSCAN 将簇定义为：由密度可达关系导出的最大的密度相连样本集合。
簇的性质

连接性(connectivity)： $x_i\in C,x_j\in C \rightarrow x_i与x_j密度相连$
最大性(maximality): $x_i \in C, x_j 与 x_i密度可达 \rightarrow x_j \in C$

密度可达 – $\varepsilon$ 邻域内

在这里插入图片描述

层次聚类

试图在不同层次对数据集进行划分，从而形成树形的聚类结构。
数据集的划分可采用"自底向上"的聚合策略，也可采用自顶向下的分拆策略。

AGNES是一种自底向上聚合策略的层次聚类算法，它将数据集中的每个样本看做一个初始簇，然后在算法的每一步中找出距离最近的两个聚类簇进行合并，给过程不断进行重复，直至达到预测的聚类簇个数.

距离计算

$\begin{aligned} 最小距离 && d_{min}(C_i,C_j)&= \min_{x\in C_i,z\in C_j}{dist(x,z)}\\ 最大距离 && d_{max}(C_i,C_j)&= \max_{x\in C_i,z\in C_j}{dist(x,z)}\\ 平均距离 && d_{avg}(C_i,C_j)&= \frac 1 {\vert C_i \vert \vert C_j \vert}\sum_{x\in C_i}{\sum_{z\in C_j}{dist(x,z)}} \end{aligned}$