聚类算法——近邻聚类算法


每篇一句:

Time is always too short for those who need it, but for those who love, it lasts forever. —Dracula Untold


近邻聚类法:

近邻聚类法同样是一种基于距离阈值的聚类算法。

  • 问题:

    有N个待分类的模式{X1,X2,…,Xn},要求按距离阈值T分类到以Z1,Z2,…为聚类中心的模式类中。(T_threshold)

  • 算法描述:

    1. 任取样本Xi作为第一个聚类中心的初始值,如令Z1 = X1。
    2. 计算样本X2到Z1的欧式距离D21= ||X2 - Z1||,若D21>T,定义一新的聚类中心Z2 = X2;否则X2 ∈以Z1为中心的聚类。
    3. 假设已有聚类中心Z1,Z2,计算D31=||X3 - Z1||和D32=||X3 - Z2||,若D31>T且D32>T,则建立第三个聚类中心Z3 = X3;否则X3∈离Z1和Z2中最近着(最近邻的聚类中心)。
    4. ……以此类推,直到将所有的N个样本都进行分类。
  • 算法特点:

    1. 局限性:很大程度上依赖于第一个聚类中心的位置选择、待分类模式样本的排列次序、距离阈值T的大小以及样本分布的几何性质等。
    2. 优点:计算简单。(一种虽粗糙但快速的方法)
  • 算法讨论:

    用先验知识指导阈值T起始点Z1的选择,可获得合理的聚类结果。否则只能选择不同的初值重复试探,并对聚类结果进行验算,根据一定的评价标准,得出合理的聚类结果。
    对聚类结果进行修改


Python实现:

  • 解释说明见代码中注释。
# coding=utf-8

# 近邻聚类算法的Python实现
# 数据集形式data=[[],[],...,[]]
# 聚类结果形式result=[[[],[],...],[[],[],...],...]
# 其中[]为一个模式样本,[[],[],...]为一个聚类

from Max_Min_Cluster import get_distance, classify


def knn_cluster(data, t):

    # data:数据集,t:距离阈值
    # 算法描述中的介绍的是在寻找聚类中心的同时进行聚类,本次实现中并未采取这种方式,
    # 原因是同时进行的话要既要考虑聚类中心,又要考虑某个类,实现较为麻烦,
    # 此次采取与上次最大最小距离算法相同的方式,先寻找聚类中心,再根据最近邻原则分类,
    # 两种方式实现效果是相同的,同时又可以直接利用最大最小距离聚类算法中写好的classify()分类方法

    zs = [data[0]]  # 聚类中心集,选取第一个模式样本作为第一个聚类中心Z1
    # 计算聚类中心
    get_clusters(data, zs, t)
    # 分类
    result = classify(data, zs, t)
    return result


def get_clusters(data, zs, t):
    for aData in data:
        min_distance = get_distance(aData, zs[0])
        for i in range(0, len(zs)):
            distance = get_distance(aData, zs[i])
            if distance < min_distance:
                min_distance = distance
        if min_distance > t:
            zs.append(aData)


# data = [[0, 0], [3, 8], [1, 1], [2, 2], [5, 3], [4, 8], [6, 3], [5, 4], [6, 4], [7, 5]]
# t = 4.5
# result = knn_cluster(data, t)
# for i in range(len(result)):
#     print "----------第" + str(i+1) + "个聚类----------"
#     print result[i]

# 打印结果:
# ----------第1个聚类----------
# [[0, 0], [1, 1], [2, 2]]
# ----------第2个聚类----------
# [[3, 8], [4, 8]]
# ----------第3个聚类----------
# [[5, 3], [6, 3], [5, 4], [6, 4], [7, 5]]

注:算法描述中的介绍的是在寻找聚类中心的同时进行聚类,本次实现中并未采取这种方式,原因是若同时进行的话要既要考虑聚类中心集合的表现形式,又要考虑某个聚类的表现形式,总体来说,数据表示形式较为麻烦。此次实现采取与上次最大最小距离聚类算法相同的方式:先寻找聚类中心,再根据最近邻原则分类,两种方式实现效果是相同的,同时又可以直接利用最大最小距离聚类算法中写好的classify()分类方法。


最后:

本文简单的介绍了 聚类算法 —— 近邻聚类算法 的相关内容,以及相应的代码实现,如果有错误的或者可以改进的地方,欢迎大家指出。

代码地址:聚类算法——近邻聚类算法(码云)

以下是一个使用C语言实现的简单近邻聚类算法的代码示例: ```c #include <stdio.h> #include <stdlib.h> #include <math.h> #define NUM_POINTS 10 #define DIMENSIONS 2 #define CLUSTER_THRESHOLD 2.0 typedef struct { double x; double y; } Point; double get_distance(Point p1, Point p2) { double dx = p2.x - p1.x; double dy = p2.y - p1.y; return sqrt(dx*dx + dy*dy); } int main() { Point points[NUM_POINTS] = {{1, 2}, {3, 4}, {5, 6}, {7, 8}, {9, 10}, {11, 12}, {13, 14}, {15, 16}, {17, 18}, {19, 20}}; int cluster_id[NUM_POINTS]; int num_clusters = 0; for (int i = 0; i < NUM_POINTS; i++) { cluster_id[i] = -1; } for (int i = 0; i < NUM_POINTS; i++) { if (cluster_id[i] == -1) { cluster_id[i] = num_clusters; num_clusters++; for (int j = i+1; j < NUM_POINTS; j++) { if (cluster_id[j] == -1) { double distance = get_distance(points[i], points[j]); if (distance <= CLUSTER_THRESHOLD) { cluster_id[j] = cluster_id[i]; } } } } } for (int i = 0; i < NUM_POINTS; i++) { printf("Point (%f, %f) belongs to cluster %d\n", points[i].x, points[i].y, cluster_id[i]); } return 0; } ``` 这个代码示例中,我们定义了一个包含10个二维点的数组,然后使用近邻聚类算法将这些点进行聚类。首先,我们初始化每个点的聚类标识为-1,表示未被分配到任何聚类。然后,遍历每个点,如果该点未被分配到聚类,则将其作为新聚类的起始点,并将其聚类标识设置为当前聚类数。接下来,遍历剩余的未分配点,计算与当前起始点的距离,如果距离小于等于阈值,将其分配到同一聚类,并将其聚类标识设置为当前聚类数。最后,打印每个点所属的聚类。 请注意,这只是一个简单的示例,并且在实际应用中可能需要根据具体需求进行修改和优化。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值