平均聚类系数_聚类方法模型(层次聚类，k均值)解析 | 统计学习方法 | 数据分析，机器学习，学习历程全记录...

最新推荐文章于 2022-07-27 00:28:46 发布

weixin_39789327

最新推荐文章于 2022-07-27 00:28:46 发布

阅读量1.4k

点赞数

文章标签：平均聚类系数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39789327/article/details/111373091

版权

本文包括：

无监督学习
聚类的概念
层次聚类：
k均值算法特性
k均值聚类

1.无监督学习：

从无标注的数据中学习数据的统计规律或者说内在结构的机器学习。因为数据没有标注，机器需要自己从数据中找出规律，因此无监督学习是一个困难任务。通常，为了得到一个足够好的模型，无监督学习需要大量的数据，因为对数据隐藏的规律的发现需要足够的观测。

2.聚类的概念：

聚类是针对给定的样本，依据它们特征的相似度，将其归并到若干个“类或“簇”的数据分析问题。一个类是给定样本集合的一个子集。直观上，相似的样本聚集在相同的类，不相似的样本分散在不同的类。这里，样本之间的相似度起着重要作用。

在以上的聚类概念中，所谓相似度，不仅可以用我们已熟知的欧式距离来计算，也可以使用其它方法计算。

2.1 相似度：

2.1.1 距离：

对于n个样本，每个样本由m个属性的特征向量组成，样本集合可以用矩阵X表示：

这里列表示的是所有样本的一个特征的特征值，行表示的是一个样本的每个特征的特征值。第j个样本的第第i个特征值，可以用xij表示。（其实我更习惯于用行表示样本，用列表示特征，但因为书中是这样安排的矩阵，就暂且按这种方式建立矩阵了。）

对于不同的聚类问题，我们可以选择不同的距离定义来判断样本之间的相似度。

在监督学习的k近邻方法中，我们讲过闵可夫斯基距离的概念，这里不再讲述，如对此不了解，可以点击下面的链接查看：

舟晓南：统计学习方法 - k近邻（KNN）模型解读 | 数据分析，机器学习，学习历程全记录

与闵氏距离不同的是，马哈拉诺比斯距离（马氏距离）考虑的是各个特征之间的相关性，与各个分量的尺度无关。

马氏距离的定义：

其中：

S是协方差矩阵，所谓协方差，是统计学上用于统计两个变量的总体误差的一种方法，方差是协方差的一种特殊情况，协方差矩阵是将所有变量进行两两计算，并以矩阵的方式进行存储。

方差：

协方差：

对于两个变量X1和X2，它们的协方差矩阵是：

2.1.2 相关系数：

样品间的相似度也可以用相关系数来表示。相关系数越接近1，样本越相似，越接近0，样本越不相似。

相关系数：

其中：

2.1.3 夹角余弦：

样本之间的相似度也可以用夹角余弦来表示。越接近1，表示样本越相似，越接近0，表示样本越不相似。

夹角余弦：

最低0.47元/天解锁文章

weixin_39789327

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
平均聚类系数_聚类方法模型(层次聚类，k均值)解析 | 统计学习方法 | 数据分析，机器学习，学习历程全记录...

本文包括：无监督学习聚类的概念层次聚类：k均值算法特性k均值聚类1.无监督学习：从无标注的数据中学习数据的统计规律或者说内在结构的机器学习。因为数据没有标注，机器需要自己从数据中找出规律，因此无监督学习是一个困难任务。通常，为了得到一个足够好的模型，无监督学习需要大量的数据，因为对数据隐藏的规律的发现需要足够的观测。2.聚类的概念：聚类是针对给定的样本，依据它们特征的相似度，将其归并到若干个“类或...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。