2-4 KNN、Kmeans、层次聚类几个需要注意的点

沉睡的小卡比兽

已于 2022-02-07 16:06:09 修改

阅读量561

点赞数

分类专栏： AI基础知识文章标签： kmeans 机器学习层次聚类 KNN 聚类

于 2022-02-04 22:39:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chen10314/article/details/122786370

版权

AI基础知识专栏收录该内容

26 篇文章 3 订阅

订阅专栏

KNN

监督学习算法，K-nearest neighbor。基本做法：对于输入的样本，找寻数据集中距离最近的K个样本，通过决策规则融合K个点的预测结果。K = 1时，也称为最近邻算法。

主要三要素是：样本距离度量方式、K值选择及决策规则的制定。高效实现方式KD树，KD树是便于对K维空间中的数据进行快速检索的数据结构。对于某一样本通过KD树的划分大致能够找到所在划分的区域，然后再对相近的点求距离，减少计算量。

K值的选择：K值越小近似误差减小、估计误差增大，更容易受异常值的影响；K值越大相反。一般通过交叉验证寻找合适的K值

决策规则：最常用的是KNN处理分类问题，采用投票的方式。当然也可以根据场景特点，在决策规则中再加一些规则和数值计算。

Kmeans

无监督学习算法，设定K为聚类的个数。基本做法：先设定K个聚类点和聚类中心

（1）计算数据集中每个样本和聚类中心点的距离，得到一个数据集样本的类别划分。

（2）重新计算K个类的聚类中心

重复（1）和（2）直到聚类结果收敛

层次聚类

无监督学习算法，层次聚类有聚合（自下而上）和分裂（自上而下）两种方法。

聚合聚类：开始时每个样本分成单独一个类，类别距离最近的类合并为同一个，重复直到停止条件满足，得到层次化聚类结果。

聚合聚类的三要素：

（1）距离或相似度定义，如余弦距离、相关系数、闵可夫斯基距离（p=1时为曼哈顿距离、p=2时为欧式距离）

（2）合并规则（一般为类间距离最小，类间距离可定义为最短距离、最长距离、中心距离、平均距离等）

（3）停止条件（类别个数达到阈值、类的直径超过阈值）

分裂聚类：开始时所有样本是一个类，把类中距离最远的样本分到两个新的类中，重复直到停止条件满足，得到层次化聚类结果。

沉睡的小卡比兽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2-4 KNN、Kmeans、层次聚类几个需要注意的点

KNN、Kmeans、层次聚类几个需要注意的点KNN监督学习算法，K-nearest neighbor。基本做法：对于输入的样本，找寻数据集中距离最近的K个样本，通过决策规则融合K个点的预测结果。K = 1时，也称为最近邻算法。层次聚类无监督学习算法，层次聚类有聚合（自下而上）和分裂（自上而下）两种方法。Kmeans 无监督学习算法，设定K为聚类的个数计算数据集中每个样本和聚类中心点的距离，得到一个数据集样本的类别划分。重新计算K个类的聚类中心。重复直到聚类结果收敛
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。