机器学习--聚类

雪頂咖啡

于 2024-07-28 11:05:51 发布

阅读量530

点赞数 20

文章标签：机器学习聚类人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SHUA_y/article/details/140649262

版权

聚类(Clustering)

无监督学习的代表

聚类在“无监督学习”任务中研究最多、应用最广

目标：将数据样本划分为若干个通常不相交的“簇”(cluster)

既可以作为一个单独过程(用于找寻数据内在的分布结构)，也可作为分类等其他学习任务的

先驱过程(预处理)。

距离计算

距离度量(distance metric)需满足的基本性质：

· 非负性： $dist(x_i,x_j)\geq 0$

· 同一性： $dist(x_i,x_j)=0$ 当且仅当 $x_i=x_j$

· 对称性： $dist(x_i,x_j)=dist(x_j,x_i)$

` 直递性： $dist(x_i,x_j)\leq dist(x_i,x_k)+dist(x_k,x_j)$

** 非度量距离(Non-Metric distance)：

违背距离度量基本准则中的某一项(通常违背最多的是直递性)

** 相似度：距离越远相似度越小，相似度不一定要满足上面的阿四个基本准则

常用距离形式：

闵可夫斯基距离(Minkowski distance) —— 对于实值属性

p = 2：欧氏距离(Euclidean distance)

p = 1：曼哈顿距离(Manhattan distance)

** 对于离散属性：区分有序和无序

有序属性：按照顺序赋值，然后依据上式计算

VDM(Value Different Metric) —— 对于无序(non-ordinal)属性

# VDM用两个无序属性出现的机会来评估两者是否相似

MinkovDM —— 对于混合属性

#上式满足距离度量的四个条件，也是一个距离

# 混合属性：有连续也有离散，离散里面有有序的又有无序的

## 聚类的“好坏”不存在绝对标准

The goodness of clustering depends on the opinion of the user.

## 聚类也许是机器学习中“新算法”出现最多、最快的领域，总能找到一个新的“标准”，使以往算法对它无能为力 —— 聚类算法是无穷无尽的，是学不完的

=> 要先明确标准，再按照标准去改算法，重要是掌握聚类算法的思路

常见聚类方法

原型聚类

亦称“基于原型的聚类”(prototype-based clustering)
假设:

聚类结构能通过一组原型刻画
过程:

先对原型初始化，然后对原型进行迭代更新求解代表:k均值聚类，学习向量量化(LVQ)，高斯混合聚类

代表:

k均值聚类，学习向量量化(LVQ)，高斯混合聚类

# 原型聚类研究最多，背后有非常好的概率意义上的解释

## 原型聚类算法(如：k均值聚类)都可以看作高斯混合聚类的特例

** 高斯混合概率

优点：可以用概率，既可以从贝叶斯学习的角度去诠释，也可以从统计学习的角度去诠释，比较好解释

缺点：通常只能找出椭球形的聚类结构

eg.出现半包围式("香肠形")样本模型时，k均值算法(原型聚类)会出现异类间距离小于同类间距离，从而错误划分。这种情况(香肠形)密度聚类(特别是DBSCAN)能有效处理。

密度聚类

亦称“基于密度的聚类”(density-based clustering)
假设:

聚类结构能通过样本分布的紧密程度确定
过程:

从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇
代表:

DBSCAN,OPTICS, DENCLUE

层次聚类(hierarchical clustering)

假设:

能够产生不同粒度的聚类结果
过程:

在不同层次对数据集进行划分，从而形成树形的聚类结构.代表:AGNES(自底向上)，DIANA(自顶向下)

代表:

AGNES(自底向上)，DIANA(自顶向下)

关注

20
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习--聚类

距离度量，常用距离形式(闵可夫斯基距离，VDM)，常见聚类方法(原型聚类，密度聚类，层次聚类)
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。