聚类算法简介

最新推荐文章于 2024-06-19 20:16:31 发布

南方惆怅客

最新推荐文章于 2024-06-19 20:16:31 发布

阅读量6.7k

点赞数 5

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/johnny_love_1968/article/details/116708871

版权

聚类

文章目录

聚类

一.什么是聚类

1.聚类定义

聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。由这个定义，我们便可以知道，数据集并没有目标值。因此聚类算法属于无监督算法。

2. 相似度的衡量

之前在k-means算法的简介当中，提及过一个欧式距离。但实际上，相似度的衡量方式有很多种。比如说：

欧式距离（这里列出的是欧式距离的拓展，闵可夫斯基距离）：

在这里插入图片描述

杰卡德相似系数(Jaccard)

在这里插入图片描述

余弦相似度：
$\cos(\theta) = \frac{x^Ty}{|x|\cdot |y|}$
这个是x向量与y向量之间的夹角为theta。如果x，y都是多维呢？如下：

在这里插入图片描述

Pearson相似系数：

在这里插入图片描述

相对熵(K-L距离)：

在这里插入图片描述

Hellinger距离：

在这里插入图片描述

在Hellinger距离当中，特殊的，我们取a=0的时候：

在这里插入图片描述

对于这几种距离到底适用于哪种场景，优缺点是什么，其实很难说，查了一些资料，一句话引起了我的注意：

其实你会发现，选择不同的相似性度量方法，对结果的影响是微乎其微的。 ——《集体智慧编程》

3. 聚类与降维的关系

我们看下面这个示例，我们假设有x1,x2, ……, xn堆样本，每堆样本有m个数据，那么这m个堆样本就组成了n*m的矩阵。
$\begin{pmatrix} x_{1}\\ x_{2}\\ x_{3}\\ .\\ .\\ .\\ .\\ x_{n} \end{pmatrix} \Rightarrow \begin{pmatrix} x_{1}^{(1)} && x_{1}^{(2)} && …… && x_{1}^{(m)} \\ x_{2}^{(1)} && x_{2}^{(2)} && …… && x_{2}^{(m)} \\ x_{3}^{(1)} && x_{3}^{(2)} && …… && x_{3}^{(m)} \\ ……&&……&&……&&……\\ ……&&……&&……&&……\\ ……&&……&&……&&……\\ x_{n}^{(1)} && x_{n}^{(2)} && …… && x_{n}^{(m)} \\ \end{pmatrix}$

最低0.47元/天解锁文章

南方惆怅客

关注

5
点赞
踩
45

收藏

觉得还不错? 一键收藏
0
评论
聚类算法简介

聚类一.什么是聚类1.聚类定义聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。由这个定义，我们便可以知道，数据集并没有目标值。因此聚类算法属于无监督算法。2. 相似度的衡量之前在k-means算法的简介当中，提及过一个欧式距离。但实际上，相似度的衡量方式有很多种。比如说：欧式距离（这里列出的是欧式距离的拓展，闵可夫斯基距离）：杰卡德相似系数(Jaccard)余弦相似度：cos⁡(θ)=xTy∣x∣⋅∣
复制链接

扫一扫

南方惆怅客 CSDN认证博客专家 CSDN认证企业博客

码龄3年

61: 原创

30万+: 周排名

86万+: 总排名

17万+: 访问

: 等级

1191: 积分

177: 粉丝

292: 获赞

68: 评论

2073: 收藏

私信

关注

热门文章

分类专栏

Lua 2篇
Leetcode 4篇
numpy 1篇
Pandas 1篇
Python 6篇
matplotlib 1篇
个人笔记

最新评论

SVM简介
Oscar_hehe: 写的逻辑有点问题
SVM简介
m0_55988760: 为什么根据分割超平面理论更好的是实线呀不应该是虚线嘛，用间隔最大化，间隔最大的是虚线把
提升算法介绍
托米老师代号9527: 方差定义错了
SVM简介
冰饮料: 线性可分那里算出来的决策函数少了个x2
深度学习——反向传播（Backpropagation）
qq_41179111: 可否问一下，图是用什么画图工具画的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。