平均聚类系数_聚类方法模型(层次聚类,k均值)解析 | 统计学习方法 | 数据分析,机器学习,学习历程全记录...

823629e51cfbe284052a7f332202ca99.png

本文包括:

  1. 无监督学习
  2. 聚类的概念
  3. 层次聚类:
  4. k均值算法特性
  5. k均值聚类

1.无监督学习:

从无标注的数据中学习数据的统计规律或者说内在结构的机器学习。因为数据没有标注,机器需要自己从数据中找出规律,因此无监督学习是一个困难任务。通常,为了得到一个足够好的模型,无监督学习需要大量的数据,因为对数据隐藏的规律的发现需要足够的观测。


2.聚类的概念:

聚类是针对给定的样本,依据它们特征的相似度,将其归并到若干个“类或“簇”的数据分析问题。一个类是给定样本集合的一个子集。直观上,相似的样本聚集在相同的类,不相似的样本分散在不同的类。这里,样本之间的相似度起着重要作用。

在以上的聚类概念中,所谓相似度,不仅可以用我们已熟知的欧式距离来计算,也可以使用其它方法计算。

2.1 相似度:

2.1.1 距离:

对于n个样本,每个样本由m个属性的特征向量组成,样本集合可以用矩阵X表示:

这里列表示的是所有样本的一个特征的特征值,行表示的是一个样本的每个特征的特征值。第j个样本的第第i个特征值,可以用xij表示。(其实我更习惯于用行表示样本,用列表示特征,但因为书中是这样安排的矩阵,就暂且按这种方式建立矩阵了。)

对于不同的聚类问题,我们可以选择不同的距离定义来判断样本之间的相似度。

在监督学习的k近邻方法中,我们讲过闵可夫斯基距离的概念,这里不再讲述,如对此不了解,可以点击下面的链接查看:

舟晓南:统计学习方法 - k近邻(KNN)模型解读 | 数据分析,机器学习,学习历程全记录

与闵氏距离不同的是,马哈拉诺比斯距离(马氏距离)考虑的是各个特征之间的相关性,与各个分量的尺度无关。

马氏距离的定义:

其中:

S是协方差矩阵,所谓协方差,是统计学上用于统计两个变量的总体误差的一种方法,方差是协方差的一种特殊情况,协方差矩阵是将所有变量进行两两计算,并以矩阵的方式进行存储。

方差:

协方差:

对于两个变量X1和X2,它们的协方差矩阵是:

2.1.2 相关系数:

样品间的相似度也可以用相关系数来表示。相关系数越接近1,样本越相似,越接近0,样本越不相似。

相关系数:

其中:

2.1.3 夹角余弦:

样本之间的相似度也可以用夹角余弦来表示。越接近1,表示样本越相似,越接近0,表示样本越不相似。

夹角余弦:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值