国科大prml10-无监督学习

1.监督学习与无监督学习

  • 有监督学习
    • 分类:y是类别标签
    • 回归:y-连续值
    • 排序:y是序数
  • 无监督学习
    • 密度估计:y密度
    • 聚类:y类簇
    • 维度约简、可视化:y是x的低纬表示
    • 原因:
      • 原始数据易得,标注数据难
      • 节约内存和计算资源
      • 减少噪声
      • 有助于可解释的数据分析
      • 经常作为监督学习的预处理步骤
k-均值聚类GMM层次聚类基于密度的聚类
算法随机中心,迭代更新簇中心EM求解;E步是软划分的k-means;M步不仅估计了均值还有协方差;属于所有簇概率均等时一样树;凝聚式,分列式连接性,最大性的点属于簇
局限性不同尺寸、密度、非球形不可用;扰动影响大-贪心(拆分和合并不可逆);没有全局目标函数;对噪声和离群点敏感;难处理不同尺寸的簇和凸的簇;成链,误把大簇分裂参数确定困难 ,不适合密度差异大的数据集;对变化的维度和高维数据不友好
损失函数最小平方距离和最小化负对数似然没有优化一个全局的目标函数
划分点到簇的硬划分从属关系的软划分层次划分,拆分合并不可逆
优点--不需要确定k,聚类结果可能对应着有意义的分类体系不需要确定簇的数量;任意形状;对离群点稳定
超参数确定间隔统计;交叉检验;簇的稳定性;非参数方法eps;minPts=k:同一个簇的点,到他们k最近邻的距离相同(画出来找)
预处理归一化;消除离群点
后处理删除小簇;分裂远;合并近的
收敛收敛(J单调下降)收敛
最优局部极小局部极小
假设簇是球的且每个簇的概率相等(欧式距离、质心)簇是高斯分布,属于每个簇的概率不同,但每个簇都有可能,球或椭球形

2. 聚类分析

  • 寻找样本中的簇,使得同一簇内样本相似,不同簇内样本不相似
  • 目标:产生一个簇的集合
  • 类型
    • 基于划分的聚类(无嵌套)
    • 层次聚类(有嵌套)
      • 树形
  • 三要素
    • 定义远近
      • 距离函数、相似度
      • 距离函数要求
        • 非负、同一、对称、传递性
      • 常用距离函数
        • 欧氏距离
        • 马氏距离
      • 尺度不一致:标准化
        • 不一定有效果(可能反而不好)
      • 相似度
        • 簇内相似度
          • 平均距离 a v g ( C ) = 2 ∣ c ∣ ( ∣ c ∣ − 1 ) Σ 1 ≤ i < j ≤ ∣ C ∣ d i s t ( x i , x j ) avg(C)=\frac{2}{|c|(|c|-1)}\Sigma_{1\leq i<j\leq |C|}dist(x_i,x_j) avg(C)=c(c1)2Σ1i<jCdist(xi,xj)
          • 最远距离 d i a m ( C ) = m a x 1 ≤ i < j ≤ ∣ C ∣ d i s t ( x i , x j ) diam(C)=max_{1\leq i<j\leq |C|}dist(x_i,x_j) diam(C)=max1i<jCdist(xi,xj)
        • 簇间相似度
          • 最小距离KaTeX parse error: Undefined control sequence: \inC at position 38: …x_i \in C_i,x_j\̲i̲n̲C̲_j}dist(x_i,x_j…
          • 中心点距离 d c e n ( C i , C j ) = d i s t ( μ i , μ j ) , μ i = 1 ∣ C i ∣ Σ x i ∈ C i x i d_{cen}(C_i,C_j)=dist(\mu_i,\mu_j),\mu_i=\frac{1}{|C_i|}\Sigma_{x_i\in C_i}x_i dcen(Ci,Cj)=dist(μi,μj),μi=Ci1ΣxiCixi
    • 评价聚类质量
      • 评价函数(由定义出发
    • 如何获得聚类的簇
      • 如何表示簇
      • 如何,如何设计划分和优化的算法,算法何时停止
特性
基于中心的簇距离自己中心近,其他中心远
基于邻接(连续)的簇和簇内至少一个点距离最近
基于密度的簇簇由高密度区域组成
基于概念的簇同一簇共享某些性质
指标1指标2指标3
有参考模型(外部指标) J C = a a + b + c , J C ∈ [ 0 , 1 ] , J C ↑ , 一 致 性 ↑ JC=\frac{a}{a+b+c},\\JC\in[0,1],JC\uparrow,一致性\uparrow JC=a+b+ca,JC[0,1],JC, F M I = a a + b a a + c , F M I ∈ [ 0 , 1 ] , F M I ↑ , 一 致 性 ↑ FMI=\sqrt{\frac{a}{a+b}\frac{a}{a+c}},\\FMI\in[0,1],FMI\uparrow,一致性\uparrow FMI=a+baa+ca ,FMI[0,1],FMI, R I = 2 ( a + d ) m ( m − 1 ) , R I ∈ [ 0 , 1 ] , R I ↑ , 一 致 性 ↑ RI=\frac{2(a+d)}{m(m-1)},\\RI\in[0,1],RI\uparrow,一致性\uparrow RI=m(m1)2(a+d),RI[0,1],RI,
无参考模型(内部指标* D B I = 1 k Σ i = 1 k m a x i ≠ j a v g ( C i ) + a v g ( C j ) d c e n ( μ i , μ j ) , D B I ↓ , 质 量 ↑ DBI=\frac{1}{k}\Sigma_{i=1}^kmax_{i\neq j}\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)}\\,DBI\downarrow,质量\uparrow DBI=k1Σi=1kmaxi=jdcen(μi,μj)avg(Ci)+avg(Cj),DBI, D I = m i n 1 ≤ i < j ≤ k d m i n ( C i , C j ) m a x 1 ≤ l ≤ k d i a m ( C l ) , D I ↑ , 质 量 ↑ DI=min_{1\leq i< j\leq k}\frac{d_{min}(C_i,C_j)}{max_{1\leq l \leq k}diam(C_l)}\\,DI\uparrow,质量\uparrow DI=min1i<jkmax1lkdiam(Cl)dmin(Ci,Cj),DI,-


在这里插入图片描述

2.1簇的其他区别

  • 独占(Exclusive) vs. 非独占的(non-exclusive)
    • 在非独占的类簇中, 样本点可以属于多个簇
  • 模糊(Fuzzy) vs. 非模糊的(non-fuzzy)
    • 在模糊聚类中, 一个样本点以一定权重属于各个聚类簇
    • 权重和为1
    • 概率聚类有相似的特性
  • 部分(Partial) vs. 完备( complete )
    • 在一些场景, 我们只聚类部分数据
  • 异质(Heterogeneous) vs. 同质(homogeneous)
    • 簇的大小、形状和密度的是否有很大的差别

2.2类型

  • 基于中心的簇
  • 基于邻接的簇
  • 基于密度的簇
  • 基于概念的簇

2.2.1 基于中心的簇

  • 簇内的点
    • 距离其他中心远
    • 距离自己中心近
  • 中心:
    • 质心(所有点的平均)或
    • 中心点表示(有代表性的点
      在这里插入图片描述

2.2.2 基于连续性的簇

  • 基于连续性的簇:相比其他任何簇的点,每个点都至少和所属簇的某一个点更近
    在这里插入图片描述

2.2.3 基于密度的簇

  • 基于密度的簇:簇是有高密的区域形成的,簇之间是一些低密度的区域
    在这里插入图片描述

2.2.4 基于概念的簇

  • 同一簇共享某种性质,这一性质是从整个结合推导出来的
  • 基于概念的簇难检测,它通常不是:
    • • 基于中心
    • • 基于关系
    • • 基于密度
      在这里插入图片描述

2.3 应用

  • 图像分割
  • 人类种族分析
  • 复杂网络分析
  • 用户画像
  • 商品分析
  • 文本分析
  • 计算生物学

2.4 三要素

  • 定义远近
    • 距离函数、相似度
  • 评价聚类质量
    • 评价函数(由定义出发
  • 如何获得聚类的簇
    • 如何表示簇
    • 如何,如何设计划分和优化的算法,算法何时停止

3.距离函数

  • 如何衡量样本之间的“远近”?
    • 文档聚类时,我们如何衡量文档间远近?
    • 图像分割时,我们如何衡量像素点之间的远近?
    • 用户画像时,我们如何衡量用户之间的远近?
  • 我们需要量化这些样本,并计算它们之间的距离
    • 距离(Distance)/相似(Similarity)/不相似(Dissimilarity)/邻近(Proximity)函数的选择与应用相关
  • 需要考虑特征的类型
    • 类别,序值,数值
  • 可以从数据直接学习相似/距离函数
  • 距离函数要求
    • 非负、同一、对称、传递性
  • 常用距离函数
    • 欧氏距离
    • 马氏距离
  • 尺度不一致:标准化
    • 不一定有效果(可能反而不好)

3.1 距离函数的要求

  • 函数dist() 是一种距离度量当且仅当:
    • 𝑑𝑖𝑠𝑡 𝑥𝑖, 𝑥𝑗 ≥ 0 (非负性)
    • 𝑑𝑖𝑠𝑡 𝑥𝑖, 𝑥𝑗 = 0 𝑖𝑓𝑓𝑥𝑖 = 𝑥𝑗 (同一性)
    • 𝑑𝑖𝑠𝑡 𝑥𝑖, 𝑥𝑗 = 𝑑𝑖𝑠𝑡 𝑥𝑗, 𝑥𝑖 (对称性)
    • 𝑑𝑖𝑠𝑡 𝑥𝑖, 𝑥𝑗 ≤ 𝑑𝑖𝑠𝑡 𝑥𝑖, 𝑥𝑘 +𝑑𝑖𝑠𝑡 𝑥𝑘, 𝑥𝑗 (直递性)
  • Minkowski 距离: d i s t m k = ( Σ u = 1 n ∣ x i u − x j u ∣ p ) 1 p dist_{mk}=(\Sigma_{u=1}^n|x_{iu}-x_{ju}|^p)^{\frac{1}{p}} distmk=(Σu=1nxiuxjup)p1
    • p=2 Euclidean 距离: : d i s t m k ≝ d i s t e d dist_{mk} ≝ dist_{ed} distmk=defdisted
    • p=1 Manhattan 距离: : d i s t m k ≝ d i s t m a n dist_{mk} ≝ dist_{man} distmk=defdistman
  • 这类距离函数对特征的旋转和平移变换不敏感,对数值尺度敏感
  • 如果样本特征值尺度不一致,将数据标准化

3.2标准化

  • x i j = Z ( x i j ) = x i j − x j ˉ σ j , 第 j 个 特 征 的 方 差 σ j , 均 值 x j ˉ x_{ij}=Z(x_{ij})=\frac{x_{ij}-\bar{x_j}}{\sigma_j},第j个特征的方差\sigma_j,均值\bar{x_j} xij=Z(xij)=σjxijxjˉ,jσjxjˉ
    • (0,1)
  • 其他标准化方法
    • min-max
    • decimal-scaling
  • 标准化不一定起效果
    在这里插入图片描述

3.3其他相似、不相似函数

  • 针对二值数据的Jaccard 系数
  • 刻画变量之间的相关性系数作为相似性度量
  • 无序属性上的值差异性度量
  • 向量间的余弦相似度(Cosine similarity)

4.评价指标

  • 有效性指标
指标1指标2指标3
有参考模型(外部指标) J C = a a + b + c , J C ∈ [ 0 , 1 ] , J C ↑ , 一 致 性 ↑ JC=\frac{a}{a+b+c},\\JC\in[0,1],JC\uparrow,一致性\uparrow JC=a+b+ca,JC[0,1],JC, F M I = a a + b a a + c , F M I ∈ [ 0 , 1 ] , F M I ↑ , 一 致 性 ↑ FMI=\sqrt{\frac{a}{a+b}\frac{a}{a+c}},\\FMI\in[0,1],FMI\uparrow,一致性\uparrow FMI=a+baa+ca ,FMI[0,1],FMI, R I = 2 ( a + d ) m ( m − 1 ) , R I ∈ [ 0 , 1 ] , R I ↑ , 一 致 性 ↑ RI=\frac{2(a+d)}{m(m-1)},\\RI\in[0,1],RI\uparrow,一致性\uparrow RI=m(m1)2(a+d),RI[0,1],RI,
无参考模型(内部指标* D B I = 1 k Σ i = 1 k m a x i ≠ j a v g ( C i ) + a v g ( C j ) d c e n ( μ i , μ j ) , D B I ↓ , 质 量 ↑ DBI=\frac{1}{k}\Sigma_{i=1}^kmax_{i\neq j}\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)}\\,DBI\downarrow,质量\uparrow DBI=k1Σi=1kmaxi=jdcen(μi,μj)avg(Ci)+avg(Cj),DBI, D I = m i n 1 ≤ i < j ≤ k d m i n ( C i , C j ) m a x 1 ≤ l ≤ k d i a m ( C l ) , D I ↑ , 质 量 ↑ DI=min_{1\leq i< j\leq k}\frac{d_{min}(C_i,C_j)}{max_{1\leq l \leq k}diam(C_l)}\\,DI\uparrow,质量\uparrow DI=min1i<jkmax1lkdiam(Cl)dmin(Ci,Cj),DI,-

4.1外部指标(有参考模型)

  • 参考模型
    在这里插入图片描述
  • Jaccard系数
    • J C = a a + b + c , J C ∈ [ 0 , 1 ] , J C ↑ , 一 致 性 ↑ JC=\frac{a}{a+b+c},JC\in[0,1],JC\uparrow,一致性\uparrow JC=a+b+ca,JC[0,1],JC,
  • FM指数
    • F M I = a a + b a a + c , F M I ∈ [ 0 , 1 ] , F M I ↑ , 一 致 性 ↑ FMI=\sqrt{\frac{a}{a+b}\frac{a}{a+c}},FMI\in[0,1],FMI\uparrow,一致性\uparrow FMI=a+baa+ca ,FMI[0,1],FMI,
  • Rand指数
    • R I = 2 ( a + d ) m ( m − 1 ) , R I ∈ [ 0 , 1 ] , R I ↑ , 一 致 性 ↑ RI=\frac{2(a+d)}{m(m-1)},RI\in[0,1],RI\uparrow,一致性\uparrow RI=m(m1)2(a+d),RI[0,1],RI,

4.2无参考模型(内部指标)

  • 质量好:簇内相似度高,簇外相似度低
  • 簇内相似度
    • 平均距离 a v g ( C ) = 2 ∣ c ∣ ( ∣ c ∣ − 1 ) Σ 1 ≤ i < j ≤ ∣ C ∣ d i s t ( x i , x j ) avg(C)=\frac{2}{|c|(|c|-1)}\Sigma_{1\leq i<j\leq |C|}dist(x_i,x_j) avg(C)=c(c1)2Σ1i<jCdist(xi,xj)
    • 最远距离 d i a m ( C ) = m a x 1 ≤ i < j ≤ ∣ C ∣ d i s t ( x i , x j ) diam(C)=max_{1\leq i<j\leq |C|}dist(x_i,x_j) diam(C)=max1i<jCdist(xi,xj)
  • 簇间相似度
    • 最小距离KaTeX parse error: Undefined control sequence: \inC at position 38: …x_i \in C_i,x_j\̲i̲n̲C̲_j}dist(x_i,x_j…
    • 中心点距离 d c e n ( C i , C j ) = d i s t ( μ i , μ j ) , μ i = 1 ∣ C i ∣ Σ x i ∈ C i x i d_{cen}(C_i,C_j)=dist(\mu_i,\mu_j),\mu_i=\frac{1}{|C_i|}\Sigma_{x_i\in C_i}x_i dcen(Ci,Cj)=dist(μi,μj),μi=Ci1ΣxiCixi
  • DB指数
    • D B I = 1 k Σ i = 1 k m a x i ≠ j a v g ( C i ) + a v g ( C j ) d c e n ( μ i , μ j ) , D B I ↓ , 质 量 ↑ DBI=\frac{1}{k}\Sigma_{i=1}^kmax_{i\neq j}\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)},DBI\downarrow,质量\uparrow DBI=k1Σi=1kmaxi=jdcen(μi,μj)avg(Ci)+avg(Cj),DBI,
  • Dumn指数
    • D I = m i n 1 ≤ i < j ≤ k d m i n ( C i , C j ) m a x 1 ≤ l ≤ k d i a m ( C l ) , D I ↑ , 质 量 ↑ DI=min_{1\leq i< j\leq k}\frac{d_{min}(C_i,C_j)}{max_{1\leq l \leq k}diam(C_l)},DI\uparrow,质量\uparrow DI=min1i<jkmax1lkdiam(Cl)dmin(Ci,Cj),DI,

5 聚类算法

5.1k-均值聚类

  • 输入:数据𝐷 = 𝐱1, 𝐱2, ⋯ , 𝐱𝑁 ,簇数目K
随机选取K个种子数据点(seeds)作为K个簇中心
repeat 
	foreach 𝐱 ∈ 𝑫 do
		计算𝐱与每一个簇中心的距离
		将𝐱指配到距离最近的簇中心
	endfor
	用当前的簇内点重新计算K个簇中心位置
 until 当前簇中心未更新

在这里插入图片描述
K均值(K-means)聚类:基于划分的聚类方法

  1. 如何表示簇?
    • 每个簇都用其质心(centroid)或者叫原型(prototype) μ k \mu_k μk表示
  2. 如何划分节点?
    • 距离使用欧式距离进行度量
    • 每个节点都划分到最近的那个质心的簇中
    • r i k r_{ik} rik ∈{0,1}为从属度,指示样本𝑥𝑖是否属于簇𝑘,且 Σ k = 1 K r i k = 1 \Sigma_{k=1}^Kr_{ik}=1 Σk=1Krik=1
  3. 优化目标:
    • 损失函数 J = Σ i = 1 n Σ k = 1 K r i k ∣ ∣ x i − μ k ∣ ∣ 2 J=\Sigma_{i=1}^n\Sigma_{k=1}^Kr_{ik}||x_i-\mu_k||^2 J=Σi=1nΣk=1Krikxiμk2, 平方误差和(SSE)
    • 如何优化(chicken and egg problem)
      • 如果中心点已知,我们可以对所有点进行划分
        • 固定 μ k = Σ i r i k x i Σ i r i k , 最 小 化 J \mu_{k}=\frac{\Sigma_ir_{ik}x_i}{\Sigma_ir_{ik}},最小化J μk=ΣirikΣirikxi,J
      • 如果从属关系已知,我们可以计算中心点
        • 固定 r i k , 最 小 化 J r_{ik},最小化J rik,J
      • 迭代计算

收敛性

  • k-means 是在损失函数上进行坐标下降(coordinate descent)的优化
  • 损失函数J 单调下降, 所以损失函数值会收敛, 所以聚类结果也会收敛
  • k-means 有可能会在不同聚类结果间震荡,但是在实际中较少发生
  • 局部极小:J 是非凸的(non-convex), 所以损失函数J上应用坐标下降法不能够保证收敛到全局的最小值. 一个常见的方法是运行k-means多次,选择最好的结果(局部极小
    在这里插入图片描述

k如何确定?

  • k是超参数
  • J随k增大而递减
  • 方法:
    • 间隔统计(会有拐点)(分析随k上升,J下降的间隔
    • 交叉检验(分两个子集,一个估计中心,一个求J
    • 簇的稳定性:通过重采样和分裂,度量簇的收敛程度
    • 非参数方法:为k加一个先验概率
      在这里插入图片描述

如何初始化K-means

  • 不同的初始化选择造成不同的结果
  • 即便存在k个真实的簇,正好选到k个簇的中心的概率也小
  • 启发式
    • 随机选择k个数据点作为中心点
    • 选择第i+1个中心时,选择与距离之前选出的中心最远的点
      在这里插入图片描述

预处理和后处理

  • 预处理
    • 归一化
    • 消除离群点
  • 后处理
    • 删除小的簇:可能代表离群点
    • 分裂松散的簇:簇内节点距离和大
    • 合并距离近的簇

局限性

  • 尺寸不同、密度不同、非球形时,得不到理想的结果
  • 扰动影响大
  • 消除:
    • 使用更大数量的簇,k增加
    • 几个小的簇表示一个真实的簇
    • 使用基于密度的方法
  • 离群点–>自己成了一个簇
  • 尺寸不同
  • 密度不同
    在这里插入图片描述
  • 非球形
    在这里插入图片描述
  • 离群点带来的问题
    在这里插入图片描述

k-medoids

  • 不用均值,而是用中心点
    • 均值作为原型容易受到影响
  • 部分情况只知道数据样本见得相似矩阵
    • 只需要数据间的相似度量就可迭代计算
      在这里插入图片描述

5.2GMM高斯混合模型和EM

在这里插入图片描述

  • 概率解释: 假设有K个簇,每一个簇服从高斯分布,以概率π𝑘随机选择一个簇 k ,从其分布中采样出一个样本点,如此得到观测数据
  • N个样本点𝒙的似然函数(Likelihood)
    • p ( x ; θ ) = Π i N Σ k = 1 K π k N ( x i ∣ μ k , Σ k ) , 其 中 Σ k π k = 1 , 0 ≤ π k ≤ 1 p(x;\theta)=\Pi_i^N\Sigma_{k=1}^K\pi_kN(x_i|\mu_k,\Sigma_k),其中\Sigma_k\pi_k=1,0\leq \pi_k\leq 1 p(x;θ)=ΠiNΣk=1KπkN(xiμk,Σk),Σkπk=1,0πk1
    • 引入隐变量,指示所属类,k维独热表示
      • p ( z k = 1 ) = π k p(z_k=1)=\pi_k p(zk=1)=πk
      • p ( x i ∣ z ) = Π k K N ( x i ∣ μ k , Σ k ) z k p(x_i|z)=\Pi_k^KN(x_i|\mu_k,\Sigma_k)^{z_k} p(xiz)=ΠkKN(xiμk,Σk)zk
        • p ( x i ∣ z k = 1 ) = N ( x i ∣ μ k , Σ k ) p(x_i|z_k=1)=N(x_i|\mu_k,\Sigma_k) p(xizk=1)=N(xiμk,Σk)
      • p ( x i ) = Σ z p ( x i ∣ z ) p ( z ) = Σ k = 1 K π k N ( x i ∣ μ k , Σ k ) p(x_i)=\Sigma_zp(x_i|z)p(z)=\Sigma_{k=1}^K\pi_kN(x_i|\mu_k,\Sigma_k) p(xi)=Σzp(xiz)p(z)=Σk=1KπkN(xiμk,Σk)
  • 从属度(可以看做,xi属于第k个簇的解释
    • γ ( z i k ) = p ( z i k = 1 ∣ x i ) = p ( z i k = 1 ) p ( x i ∣ z k = 1 ) Σ k = 1 K p ( z i k = 1 ) p ( x i ∣ z k = 1 ) = π k N ( x i ∣ μ k , Σ k ) Σ k = 1 K π k N ( x i ∣ μ k , Σ k ) \gamma(z_{ik})\\=p(z_{ik=1}|x_i)\\=\frac{p(z_{ik}=1)p(x_i|z_k=1)}{\Sigma_{k=1}^Kp(z_{ik}=1)p(x_i|z_k=1)}\\=\frac{\pi_kN(x_i|\mu_k,\Sigma_k)}{\Sigma_{k=1}^K\pi_kN(x_i|\mu_k,\Sigma_k)} γ(zik)=p(zik=1xi)=Σk=1Kp(zik=1)p(xizk=1)p(zik=1)p(xizk=1)=Σk=1KπkN(xiμk,Σk)πkN(xiμk,Σk)

参数学习:极大似然估计–EM

  • 极大似然估计
    • 难:log里面有求和,所有参数耦合
    • 似然函数取最大值时满足的条件: l o g ( P ( x ∣ θ ) 对 μ k 求 导 log(P(x|\theta)对\mu_k求导 log(P(xθ)μk
      • 0 = − Σ i = 1 N π k N ( x i ∣ μ k , Σ k ) Σ k = 1 K π k N ( x i ∣ μ k , Σ k ) Σ k ( x i − μ k ) 0=-\Sigma_{i=1}^N\frac{\pi_kN(x_i|\mu_k,\Sigma_k)}{\Sigma_{k=1}^K\pi_kN(x_i|\mu_k,\Sigma_k)}\Sigma_k(x_i-\mu_k) 0=Σi=1NΣk=1KπkN(xiμk,Σk)πkN(xiμk,Σk)Σk(xiμk)
        • μ k = Σ i γ ( z i k ) x i γ ( z i k ) \mu_k=\frac{\Sigma_i\gamma(z_{ik})x_i}{\gamma(z_{ik})} μk=γ(zik)Σiγ(zik)xi
        • π k = Σ i γ ( z i k ) N \pi_k=\frac{\Sigma_i\gamma(z_{ik})}{N} πk=NΣiγ(zik)
        • Σ k = Σ i γ ( z i k ) ( x i − μ k ) ( x i − μ k ) T γ ( z i k ) \Sigma_k=\frac{\Sigma_i\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^T}{\gamma(z_{ik})} Σk=γ(zik)Σiγ(zik)(xiμk)(xiμk)T
      • 这不是封闭解–》EM
        • E:给定当前参数估计值,求后验概率 γ ( z i k ) = E ( z i k ) \gamma(z_{ik})=E(z_{ik}) γ(zik)=E(zik)
        • M:依据后验概率 γ ( z i k ) \gamma(z_{ik}) γ(zik),求参数估计 μ k 、 π k 、 Σ k \mu_k、\pi_k、\Sigma_k μkπkΣk
        • 迭代收敛到局部极小
EM
  • 通用EM
    • 目标函数:极大似然函数 l o g P ( X ∣ θ ) = l o g Σ z P ( x , z ∣ θ ) logP(X|\theta)=log\Sigma_zP(x,z|\theta) logP(Xθ)=logΣzP(x,zθ)
    • 用于:不完整数据的对数似然函数
      • 不知Z的数据,只知道Z的后验分布 P ( z ∣ x , θ o l d ) P(z|x,\theta^{old}) P(zx,θold)
      • 考虑其期望 Q ( θ , θ o l d ) = E p ( z ∣ x , θ o l d ) ( l o g P ( x , z ∣ θ ) ) Q(\theta,\theta^{old})=E_{p(z|x,\theta^{old})}(log P(x,z|\theta)) Q(θ,θold)=Ep(zx,θold)(logP(x,zθ))
      • 最大化期望 θ n e w = a r g m a x θ Q ( θ , θ o l d ) \theta^{new}=argmax_\theta Q(\theta,\theta^{old}) θnew=argmaxθQ(θ,θold)
    • E:求 P ( z ∣ x , θ o l d ) P(z|x,\theta^{old}) P(zx,θold)
    • M: θ n e w = a r g m a x θ Q ( θ , θ o l d ) \theta^{new}=argmax_\theta Q(\theta,\theta^{old}) θnew=argmaxθQ(θ,θold)
      • why是启发式的,但却存在似然函数?
        • Q ( θ , θ o l d ) = E p ( z ∣ x , θ o l d ) ( l o g P ( x , z ∣ θ ) ) = p ( x ; θ ) Q(\theta,\theta^{old})=E_{p(z|x,\theta^{old})}(log P(x,z|\theta))=p(x;\theta) Q(θ,θold)=Ep(zx,θold)(logP(x,zθ))=p(x;θ)
    • 完整数据和不完整数据的比较
    • 不完整数据: l o g p ( x ) = Σ i l o g Σ z p ( x i ∣ z ) p ( z ) = Σ i l o g Σ k = 1 K π k N ( x i ∣ μ k , Σ k ) logp(x)=\Sigma_ilog \Sigma_zp(x_i|z)p(z)=\Sigma_ilog \Sigma_{k=1}^K\pi_kN(x_i|\mu_k,\Sigma_k) logp(x)=ΣilogΣzp(xiz)p(z)=ΣilogΣk=1KπkN(xiμk,Σk)
      • 不完整数据中,参数之间是耦合的,不存在封闭解
    • 完整数据
      • l o g p ( x , z ∣ θ ) = l o g p ( z ∣ θ ) p ( x ∣ z , θ ) = Σ i Σ k z i k ( l o g π k + l o g N ( x i ∣ μ k , Σ k ) ) logp(x,z|\theta)=logp(z|\theta)p(x|z,\theta)=\Sigma_i\Sigma_k z_{ik}(log\pi_k+logN(x_i|\mu_k,\Sigma_k)) logp(x,zθ)=logp(zθ)p(xz,θ)=ΣiΣkzik(logπk+logN(xiμk,Σk))
      • E z ( l o g p ( x , z ∣ θ ) ) = Σ i Σ k E ( z i k ) ( l o g π k + l o g N ( x i ∣ μ k , Σ k ) ) = Σ i Σ k γ ( z i k ) ( l o g π k + l o g N ( x i ∣ μ k , Σ k ) ) E_z(logp(x,z|\theta))\\=\Sigma_i\Sigma_kE(z_{ik})(log\pi_k+logN(x_i|\mu_k,\Sigma_k))\\=\Sigma_i\Sigma_k\gamma(z_{ik})(log\pi_k+logN(x_i|\mu_k,\Sigma_k)) Ez(logp(x,zθ))=ΣiΣkE(zik)(logπk+logN(xiμk,Σk))=ΣiΣkγ(zik)(logπk+logN(xiμk,Σk))
EM收敛性保证
  • 目标:最大化 P ( x ∣ θ ) = Σ z p ( x , z ∣ θ ) P(x|\theta)=\Sigma_zp(x,z|\theta) P(xθ)=Σzp(x,zθ)
    • 直接优化 P ( x ∣ θ ) P(x|\theta) P(xθ)很困难,但优化完整数据的 p ( x , z ∣ θ ) p(x,z|\theta) p(x,zθ)容易
  • 证明
    • 分解
    • 对任意分布q(z),下列分解成立
      • l n p ( x ∣ θ ) = L ( q , θ ) + K L ( q ∣ ∣ p ) 其 中 , L ( q , θ ) = Σ z q ( z ) l n ( p ( x , z ∣ θ ) q ( z ) ) K L ( q ∣ ∣ p ) = − Σ z q ( z ) l n ( p ( z ∣ x , θ ) q ( z ) ) K L ( q ∣ ∣ p ) ≥ 0 , L ( q , θ ) 是 l n p ( x ∣ θ ) 的 下 界 lnp(x|\theta)=L(q,\theta)+KL(q||p)\\其中,\\L(q,\theta)=\Sigma_zq(z)ln(\frac{p(x,z|\theta)}{q(z)})\\KL(q||p)=-\Sigma_zq(z)ln(\frac{p(z|x,\theta)}{q(z)})\\KL(q||p)\geq0,L(q,\theta)是lnp(x|\theta)的下界 lnp(xθ)=L(q,θ)+KL(qp)L(q,θ)=Σzq(z)ln(q(z)p(x,zθ))KL(qp)=Σzq(z)ln(q(z)p(zx,θ))KL(qp)0,L(q,θ)lnp(xθ)
    • E: 最 大 化 L ( q , θ ) , q ( z ) = P ( z ∣ x , θ o l d ) 最大化L(q,\theta),\\q(z)=P(z|x,\theta^{old}) L(q,θ),q(z)=P(zx,θold)
    • M : 原 来 的 下 界 L ( q , θ ) = Σ z P ( z ∣ x , θ o l d ) l n ( p ( x , z ∣ θ ) q ( z ) ) = Q ( θ , θ o l d ) + c o n s t − − − 正 好 是 期 望 M:原来的下界L(q,\theta)=\Sigma_zP(z|x,\theta^{old})ln(\frac{p(x,z|\theta)}{q(z)})=Q(\theta,\theta^{old})+const---正好是期望 M:L(q,θ)=ΣzP(zx,θold)ln(q(z)p(x,zθ))=Q(θ,θold)+const
    • 下界提升了
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

与k-means比较

  • 高斯混合模型的E步是一个软划分版本的 K-means. 𝑟𝑖𝑘 ∈ [0,1]
  • 高斯混合模型的M步估计除了估计均值外还估计协方差矩阵
  • 当所有π𝑘 相等, Σ k = δ 2 I , 当 δ → 0 , γ i k → 0 , 1 \Sigma_k=\delta^2I,当\delta\rightarrow 0,\gamma_{ik}\rightarrow{0,1} Σk=δ2I,δ0,γik0,1,那么两个方
    法是一致的

5.3层次聚类

  • 产生树形嵌套的聚类簇

    • 可以被可视化为树状图(dendrogram)
    • 树形的示意图,记录了簇合并或分割的序列
      在这里插入图片描述
  • 优点

  • 不需要提前假定聚类的簇数

    • 通过选择树状图的某一层可以获得任意簇数量的聚类结构
    • 用户可以在层次化的聚类中选择一个分割,得到一个最自然的聚类结果( 例如,各个簇的簇间相似性高于一定阈值)
  • 聚类结果可能对应着有意义的分类体系

    • 例如在生物科学中 (e.g., 门纲目科, 人类种系, …)
  • 分类

    • 自底向上(凝聚式): 递归的合并相似度最高/距离最近的两个簇
    • 自顶向下 (分列式): 递归地分裂最不一致的簇(例如:具有最大直径的簇)
      在这里插入图片描述
凝聚式分列式
更流行
近似程度
更流行
更流行

5.3.1 凝聚式(自底向上)

  • 相较于分列式,凝聚式是更加流行的层次聚类技术
  • 基本算法非常直观
    在这里插入图片描述
  • 关键是如何计算簇之间的近似程度(proximity ) →不同的定义簇间距离的方
    法,将得到不同的聚类算法
  • 算法
    • 起始状态
      • 一个点一个类
    • 中间过程
      • 经过一些合并步骤后,可以得到一些簇
      • 合并最近的两个簇(C2,C5),并更新相似度矩阵–如何更新?
  • 缺点:
    • 贪心: 一旦簇被合并或者拆分,过程不可逆
    • 没有优化一个全局的目标函数
    • 不同方法存在一个或多个以下问题:
      • 对噪声和离群点敏感
      • 比较难处理不同尺寸的簇和凸的簇
      • 成链, 误把大簇分裂
  • 相似度矩阵如何更新?
  • 如何定义簇间相似度
优点缺点
最小距离(min)可形成非球形、非凸的簇链式效应
最大距离(max)优点:对噪声更加有鲁棒性(不成链)趋向于拆开大的簇,偏好球形簇
平均距离(group average)折中
中心点距离(distance between centroids)-反向效应(偶棉合并的簇间距离可能比之前合并的簇的簇间距离更近)
ward’s方法试用平方误差两个簇的相似性基于两个簇融合后的平方误差的增加;偏向球形簇k-means的层次化版本(可用于初始化k-means)-

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

在这里插入图片描述

5.4基于密度的聚类DBSCAN

  • 概念
    • 密度=给定半径(eps)内点的个数
    • 核心点:密度大于minPts的点
    • 边界点:密度少于minPts,但半径内的点都在某个核心点的范围内
    • 噪声点:此外的点
    • 点q由p密度可达:连接两个点的路径上所有的点都是核心点
      • 如果p 是核心点,那么由它密度可达的点形成一个
    • 点q 和点p 是密度相连的,如果存在点o 从其密度可达点q 和点p(间接抵达)
  • 聚类的簇满足以下两个性质:
    • 连接性:簇内的任意两点点是密度相连的;
    • 最大性:如果一个点从一个簇中的任意一点密度可达,那么该点属于该簇

      在这里插入图片描述

算法

在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

如何确定超参数eps,minPts

  • 直观想法:同一个簇内的点,它们第k个最近邻大约相同的距离。
  • 噪声点到其第k最近邻距离较远
  • 方法:画出每个点到其第k最近邻的距离
    在这里插入图片描述

其他算法

◼聚类公平性
• 意义:聚类主体与人相关
• 多种公平性定义
• 多种聚类算法下的公平性
◼Multi-View数据聚类
• 数据来自多个源
• 数据的属性不一致
• 例如:text + image + voice
◼聚类算法的加速
• 例如DBSCAN++:减少密度计算量,提
升算法应用速度
• 提高密度聚类并行性
在这里插入图片描述

基于AutoEncoder

  • Deep Embedding Network(DEN):AE加入正则学习更适合的表示
    • 步骤:利用AE对原是数据降维,再利用k-means聚类学到的表示
    • 局部性保持正则项:聚类𝑥𝑖最近的点距离不变
    • 组稀疏正则项:表示分为多组,只有部分组激活
      在这里插入图片描述在这里插入图片描述在这里插入图片描述
  • Deep Embedded Clustering(DEC)是一个典型的基于无监督的深度神经网络聚类算法
  • 步骤
    • 先在AE预训练,采用encoder参数进行初始化
    • 利用聚类损失进行训练,利用自我训练目标
      在这里插入图片描述在这里插入图片描述在这里插入图片描述

基于CDNN

网络仅仅通过聚类损失进行调节,网络可以使CNN,FCN,DBN等
在这里插入图片描述

[参考文献]
1.国科大prml课程郭嘉丰老师ppt

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值