机器学习（一）——聚类

最新推荐文章于 2023-06-18 22:41:59 发布

冠long馨

最新推荐文章于 2023-06-18 22:41:59 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习与大数据分析文章标签：聚类机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/koulongxin123/article/details/123338607

版权

文章目录

1. 聚类任务
2. 性能度量
- 2.1 外部指标
- 2.2 内部指标
3. 距离计算
4. 原型聚类

参考资料
《机器学习》——周志华

1. 聚类任务

（1）目的
聚类试图将样本划分为若干通常不相交的子集。

（2）符号描述

假定样本集 $D=\{x_1,x_2,\cdots,x_m\}$ 包含m个样本。
每个样本 $x_i=\{x_{i1},x_{i,2},\cdots,x_{i,n}\}$ 是一个n维特征向量。
样本被划分为k个不相交的簇 $\{C_l|l=1,2,\cdots,k\}$ 。我们用 $\lambda_j \in \{1,2,\cdots,k\}$ 表示样本 $x_j$ 的簇标记。
因此： $x_j \in C_{\lambda_j}$
聚类结果可以用m个元素的簇标记向量 $\lambda = \{\lambda_1,\lambda_2,\cdots,\lambda_m\}$ 表示

2. 性能度量

（1）目的

正如其名，性能度量能够评估聚类效果的好坏。簇内相似度高、簇间相似度低。
可以将使用的性能度量作为聚类过程的优化目标。

根据是否需要参考模型，可以将指标分为外部指标（external index）和内部指标（internal index）。

2.1 外部指标

标准： 准确率（贴合情况）

对数据集 $D=\{x_1,x_2,\cdots,x_m\}$ 通过聚类给回的簇划分为 $C=\{C_1,C_2,\cdots,C_k\}$ ，参考模型给出的簇划分为 $C^*=\{C^*_1,C^*_2,\cdots,C^*_s\}$

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习（一）——聚类

文章目录1. 聚类任务2. 性能度量3. 距离计算4. 原型聚类4.1 k-means4.2 LVQ4.3 高斯混合聚类4.4 密度聚类4.5 层次聚类参考资料《机器学习》——周志华1. 聚类任务（1）目的聚类试图将样本划分为若干通常不相交的子集。（2）符号描述假定样本集D={x1,x2,⋯ ,xm}D=\{x_1,x_2,\cdots,x_m\}D={x1,x2,⋯,xm}包含m个样本。每个样本xi={xi1,xi,2,⋯ ,xi,n}x_i=\{x_{i1},x_{i,2},\c
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

冠long馨 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。