机器学习——无监督学习

文章介绍了数据聚类的各种方法,包括基于距离的聚类如K-Means和层次聚类,以及密度聚类如DBSCAN。同时,讨论了不同距离度量方式,如闵可夫斯基距离、余弦相似度和马氏距离。此外,还提到了高斯混合模型在模型聚类中的应用以及关联分析的基本概念,如支持度和置信度,并提及Apriori算法在发现频繁项集中的作用。
摘要由CSDN通过智能技术生成

聚类

问题描述

训练数据: D = { x 1 , x 2 , ⋯   , x m } D=\lbrace x_1,x_2,\cdots,x_m\rbrace D={x1,x2,,xm},其中每个数据为 n n n 维向量 x i = ( x i 1 , x i 2 , ⋯   , x i n ) x_i=(x_{i1},x_{i2},\cdots,x_{in}) xi=(xi1,xi2,,xin)
任务:将 D D D 划分为 k k k 个互不相交的簇。

样本相似性的度量

有序属性的度量

闵可夫斯基距离:
d i s t m k ( x i , x j ) = ( ∑ u = 1 n ∣ x i u − x j u ∣ p ) 1 / p ,   p ≥ 1 {\rm dist_{mk}}(x_i,x_j)=(\sum\limits_{u=1}^{n}|x_{iu}-x_{ju}|^p)^{1/p},\ p\ge1 distmk(xi,xj)=(u=1nxiuxjup)1/p, p1

余弦相似度:
s i j ( x i , x j ) = x i T x j ∣ ∣ x i ∣ ∣ ⋅ ∣ ∣ x j ∣ ∣ s_{ij}(x_i,x_j)=\frac{x_i^{T}x_j}{||x_i||\cdot ||x_j||} sij(xi,xj)=∣∣xi∣∣∣∣xj∣∣xiTxj

马氏距离:
D M ( x ) = ( x − μ ) T Σ − 1 ( x − μ ) D_M(x)=\sqrt{(x-\mu)^T\Sigma^-1(x-\mu)} DM(x)=(xμ)TΣ1(xμ)
其中 Σ \Sigma Σ 为样本集协方差矩阵。

为啥不用相关系数呢?

无序属性的度量

VDM距离:
V D M p ( a , b ) = ∑ i = 1 k ∣ m u , a , i m u , a − m u , b , i m u , b ∣ p {\rm VDM}_p(a,b)=\sum\limits_{i=1}^{k}|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|^p VDMp(a,b)=i=1kmu,amu,a,imu,bmu,b,ip
其中, m u , a m_{u,a} mu,a 表示在属性 u u u 上取 a a a 的样本数, m u , a , i m_{u,a,i} mu,a,i 表示在 i i i 簇中属性 u u u 上取 a a a 的样本数。

直观上理解,如果两个取值越像,则其在每个簇的差异应该也越小

混合属性的度量

M i n k o V D M p ( x i , x j ) = ( ∑ u = 1 n c ∣ x i u − x j u ∣ p + ∑ u = n c + 1 n V D M p ( x i u , x j u ) ) 1 p {\rm MinkoVDM}_p(x_i,x_j)=(\sum\limits_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\sum\limits_{u=n_c+1}^{n}{\rm VDM}_p(x_{iu},x_{ju}))^\frac{1}{p} MinkoVDMp(xi,xj)=(u=1ncxiuxjup+u=nc+1nVDMp(xiu,xju))p1

聚类方法

划分聚类——K-Means

在这里插入图片描述

关于 K-Means 只适用于“团状”数据的问题,感觉换一种距离度量方式就能解决了吧?

层次聚类

自底向上:先将每个样本看作独立的簇,然后按照相似度进行合并,如 AGNES 算法。

自顶向下:将所有样本看作一个簇,然后逐渐细分,如 DIANA 算法。

密度聚类

在这里插入图片描述
DBSCAN 算法:
在这里插入图片描述

模型聚类

n n n 维随机变量的高斯分布:
在这里插入图片描述
上式可以简记为 p ( x ∣ u , Σ ) p(x|u,\Sigma) p(xu,Σ)

高斯混合模型:
在这里插入图片描述
k k k 个高斯分布混合而成, α i \alpha_i αi为权重。

在这里插入图片描述

关联分析

问题描述

挖掘形如 x → y x\rightarrow y xy的蕴含式(简单关联:无先后顺序、序列关联:有先后顺序)

支持度:
S u p p o r t ( A ∩ B ) = F r e q ( A ∩ B ) N {\rm Support}(A\cap B)=\frac{{\rm Freq}(A\cap B)}{N} Support(AB)=NFreq(AB)
置信度:
C o n f i d e n c e = F r e q ( A ∩ B ) F r e q ( A ) {\rm Confidence}=\frac{{{\rm Freq}(A\cap B)}}{{\rm Freq}(A)} Confidence=Freq(A)Freq(AB)

Apriori 算法

如果事件 A 包含 k k k 个元素,则称其为 k k k 项集,若 A 的最小支持度超过阈值,则进一步称其为频繁 k k k 项集。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值