这是我的第一篇文章,同时也记录着我在读研时候的点点滴滴,从12月17日开始~
KMeans+DBSCAN算法
Kmeans
KMeans算法是一种聚类算法,而聚类问题在机器学习中主要是是一类无监督问题:简单理解是手中无标签,我们要去分出标签。这类问题的难点是:如何去评估,也就是怎么来评估我们算法的好坏。如何调参?也就是到底有多少个聚类中心点。
KMeans最大的问题就是一个先验知识,这个先验知识是让我们知道如何对Kmeans要分出来的区域进行一个判断。DBSCAN
DBSCAN同样是一类聚类算法,其算法要点:阈值+核心对象+密度可达(包含直接密度可达)+边界点,理解了上述的要点,这个算法根本无难点。
KMeans+DBSCAN DemoTime
demo
我这里选用的工具是Jupyter+Python3.6的环境,上述的两类算法是非常简单的,主要是如何去实现这类算法:
#pandas提供了大量能使我们快速便捷地处理数据的函数的方法,对入门小白具体用法参见廖雪峰python
import pandas as pd
beer = pd.read_csv('D:/WorkData/Jupyter/KMeans-DBSCAN/data.txt',sep=' ')
beer.head(3)