KMeans+DBSCAN小试

最新推荐文章于 2024-04-19 09:26:31 发布

Merlin17Crystal33

最新推荐文章于 2024-04-19 09:26:31 发布

阅读量3.5k

点赞数 1

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/qq_35495233/article/details/78823251

版权

本文是作者的首篇博客，记录了在研究生期间的学习点滴，重点介绍了KMeans和DBSCAN两种聚类算法。KMeans是无监督学习中的聚类算法，其难点在于评估标准和确定聚类数量。DBSCAN则基于密度进行聚类，无须预先设定类别数。文章提供了在Jupyter环境下用Python实现这两种算法的Demo，并强调了标准化并不总是最佳选择。

摘要由CSDN通过智能技术生成

这是我的第一篇文章，同时也记录着我在读研时候的点点滴滴，从12月17日开始~

KMeans+DBSCAN算法

Kmeans

KMeans算法是一种聚类算法，而聚类问题在机器学习中主要是是一类无监督问题：简单理解是手中无标签，我们要去分出标签。这类问题的难点是：如何去评估，也就是怎么来评估我们算法的好坏。如何调参？也就是到底有多少个聚类中心点。
KMeans最大的问题就是一个先验知识，这个先验知识是让我们知道如何对Kmeans要分出来的区域进行一个判断。
DBSCAN

DBSCAN同样是一类聚类算法，其算法要点：阈值+核心对象+密度可达（包含直接密度可达）+边界点，理解了上述的要点，这个算法根本无难点。

KMeans+DBSCAN DemoTime

demo

我这里选用的工具是Jupyter+Python3.6的环境，上述的两类算法是非常简单的，主要是如何去实现这类算法：

#pandas提供了大量能使我们快速便捷地处理数据的函数的方法，对入门小白具体用法参见廖雪峰python
import pandas as pd
beer = pd.read_csv('D:/WorkData/Jupyter/KMeans-DBSCAN/data.txt',sep=' ') 
beer.head(3)