DBSCAN算法python实现（附完整数据集和代码）

最新推荐文章于 2025-03-20 22:01:49 发布

Joyce_Ff

最新推荐文章于 2025-03-20 22:01:49 发布

阅读量3.7w

点赞数 78

分类专栏：数据科学文章标签： DBSCAN

本文链接：https://blog.csdn.net/Joyce_Ff/article/details/91955640

版权

一、算法思路

DBSCAN算法的核心是“延伸”。先找到一个未访问的点p，若该点是核心点，则创建一个新的簇C，将其邻域中的点放入该簇，并遍历其邻域中的点，若其邻域中有点q为核心点，则将q的邻域内的点也划入簇C，直到C不再扩展。直到最后所有的点都标记为已访问。

点p通过密度可达来扩大自己的“地盘”，实际上就是簇在“延伸”。

图示网站：https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/ 可以看一下簇是如何延伸的。

二、算法实现

1、计算两点之间的距离

# 计算两个点之间的欧式距离，参数为两个元组
def dist(t1, t2):
    dis = math.sqrt((np.power((t1[0]-t2[0]),2) + np.power((t1[1]-t2[1]),2)))
    # print("两点之间的距离为："+str(dis))
    return dis

2、读取文件，加载数据集

def loadDataSet(fileName, splitChar='\t'):
    dataSet = []
    with open(fileName) as fr:
        for line in fr.readlines():
            curline = line.strip().split(splitChar)
            fltline = list(map(float, curline))
            dataSet.append(fltline)
    return dataSet