机器学习——无监督学习

最新推荐文章于 2024-09-10 20:02:49 发布

MaTF_

最新推荐文章于 2024-09-10 20:02:49 发布

阅读量627

点赞数

分类专栏：机器学习文章标签：机器学习学习聚类

本文链接：https://blog.csdn.net/MaTF_/article/details/131404254

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章介绍了数据聚类的各种方法，包括基于距离的聚类如K-Means和层次聚类，以及密度聚类如DBSCAN。同时，讨论了不同距离度量方式，如闵可夫斯基距离、余弦相似度和马氏距离。此外，还提到了高斯混合模型在模型聚类中的应用以及关联分析的基本概念，如支持度和置信度，并提及Apriori算法在发现频繁项集中的作用。

摘要由CSDN通过智能技术生成

聚类

问题描述

训练数据： $D=\lbrace x_1,x_2,\cdots,x_m\rbrace$ ，其中每个数据为 $n$ 维向量 $x_i=(x_{i1},x_{i2},\cdots,x_{in})$ ；
任务：将 $D$ 划分为 $k$ 个互不相交的簇。

样本相似性的度量

有序属性的度量

闵可夫斯基距离：
${\rm dist_{mk}}(x_i,x_j)=(\sum\limits_{u=1}^{n}|x_{iu}-x_{ju}|^p)^{1/p},\ p\ge1$

余弦相似度：
$s_{ij}(x_i,x_j)=\frac{x_i^{T}x_j}{||x_i||\cdot ||x_j||}$

马氏距离：
$D_M(x)=\sqrt{(x-\mu)^T\Sigma^-1(x-\mu)}$
其中 $\Sigma$ 为样本集协方差矩阵。

为啥不用相关系数呢？

无序属性的度量

VDM距离：
${\rm VDM}_p(a,b)=\sum\limits_{i=1}^{k}|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|^p$
其中， $m_{u,a}$ 表示在属性 $u$ 上取 $a$ 的样本数， $m_{u,a,i}$ 表示在 $i$ 簇中属性 $u$ 上取 $a$ 的样本数。