【机器学习】常用聚类算法原型

本文介绍了无监督学习中的聚类算法,包括k-means、层次聚类和DBSCAN。k-means简单高效但易受初始点选择影响;层次聚类形成树状结构,适合小规模数据;DBSCAN能处理不规则形状聚类,对异常点不敏感。三种算法各有优缺点,适用于不同场景。
摘要由CSDN通过智能技术生成

本博客为博主查阅大量资料后整理原创,虽水仍不易,如需转载,请附上本文链接https://blog.csdn.net/JasonLeeeeeeeeee/article/details/81106558,谢谢
本文若有不足之处可以交流沟通,互相学习

1. 聚类简介

在机器学习中,分为监督学习、无监督学习和半监督学习。前一篇博客中提到的回归和分类都属于监督学习,本文着重探讨无监督学习中的聚类算法。
博主之前看过一些资料,这两天也翻阅了网上的各大博客后,也想总结一下,写一写聚类相关的知识点,对自己所看的知识也算是总结,以后回想也有翻的资料。
聚类算法是数据在没有标签的情况下,但是还是认为数据具有各自族群,不属于同一类,对这些数据进行聚类后,可以总结发现各个类的特点,有助于更深刻理解数据,判断数据的来源;分类算法是有所有数据的标签,然后让机器来学习这些数据中潜在的规律,把这个规律记住,当有新数据来了的时候,可以自动判断该数据属于哪一类。
翻阅了网上各大博客后,好多博客都会说的很全面,例如下图中,涵盖聚类算法的各种方法。
这里写图片描述
个人认为k均值聚类、层次聚类、密度聚类基本可以解决大部分数据聚类问题,这三个也是比较容易理解的方法,下面就对这三个方法进行介绍。

2. k均值聚类(k-means)

k-means算法属于基于划分的聚类方法(Partition-based methods),这种聚类方法的中心思想是认为“族内点的距离都足够近,族间点的距离都是相对较远的”。k-means算法首先要确定k值,即最终所聚簇群个数;然后选取k个点作为中心点,计算其他点到k个点的距离,围绕该聚类方法的中心思想,将所有数据分为k个簇群。对于该方法的各个环节中优化改进的变体算法包括k-medoids、k-modes、k-medians、kernel k-means等算法。算法步骤如下:
(1)从n个向量对象任意选择k个向量作为初始聚类中心;
(2)计算剩余每个对象与这k个中心对象各自的距离;
(3)把这个向量和距离它最近的中心向量对象归为一个类簇中;
(4)重新计算每个簇的平均值,更新为新的簇中心;
(5)重复(2)、(3)、(4)步骤,直到当前均值向量均未更新。

优点:对于大型数据集也是简单高效、时间复杂度、空间复杂度低。
缺点:最重要是数据集大时结果容易局部最优;需要预先设定K值,对最先的K个点选取很敏感;对噪声和离群值非常敏感ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值