K-Median聚类算法

本文介绍了如何利用K-means聚类算法对给定数据集中的点进行分组,通过计算曼哈顿距离并不断更新中心点,直到达到收敛。过程涉及SQL查询和数据操作,以#T表为例展示了算法的实施步骤。
摘要由CSDN通过智能技术生成
/*
1.选取我们的初始的中心点的个数
2.计算剩余的点到中心点的距离(曼哈顿距离公式)
3.将距离到中心点的距离最短的归为一类
4.重新计算中心点
5.重复3,4两个步骤,直到中心点不会变化为止
*/
CREATE TABLE #T
(
	p VARCHAR(10),
	x DECIMAL(18,6),
	y DECIMAL(18,6),
	j INT
)

INSERT INTO #t(p,x,y) VALUES('p1',7,7)
INSERT INTO #t(p,x,y) VALUES('p2',2,3)
INSERT INTO #t(p,x,y) VALUES('p3',6,8)
INSERT INTO #t(p,x,y) VALUES('p4',1,4)
INSERT INTO #t(p,x,y) VALUES('p5',1,2)
INSERT INTO #t(p,x,y) VALUES('p6',3,1)
INSERT INTO #t(p,x,y) VALUES('p7',6,9)
INSERT INTO #t(p,x,y) VALUES('p8',8,8)
INSERT INTO #t(p,x,y) VALUES('p9',9,10)
INSERT INTO #t(p,x,y) VALUES('p10',5,5)
INSERT INTO #t(p,x,y) VALUES('p11',7,6)
INSERT INTO #t(p,x,y) VALUES('p12',9,3)
INSERT INTO #t(p,x,y) VALUES('p13',2,8)
INSERT INTO #t(p,x,y) VALUES('p14',5,11)
INSERT INTO #t(p,x,y) VALUES('p15',5,2)


DECLARE @K INT =2

SELECT p,x,y,IDENTITY(INT,1,1) AS j INTO #T2  FROM 
(
	SELECT *,COUNT(*) OVER(PARTITION BY i) AS m,ROW_NUMBER() OVER(PARTITION BY i ORDER BY x+y) n 
	FROM 
	(
		SELECT * ,NTILE(@K) OVER(ORDER BY x+y) AS i 
		FROM #T
	) a     
) b
WHERE n=m/@K
 
 
WHILE @@ROWCOUNT>0
BEGIN 
	UPDATE f SET  j = e.j 
	FROM 
	(
		SELECT *, ROW_NUMBER() OVER(PARTITION BY p1 ORDER  BY z) AS z2  FROM 
		(
		SELECT a.p AS p1,b.p AS p2, ABS(a.x-b.x)+ABS(a.y-b.y) AS z
		FROM #T a cross JOIN #T2 b
		) c
	) d 
	INNER JOIN  #t2 e ON  d.p2 = e.p
	INNER JOIN #t f ON  f.p = d.p1
	WHERE z2=1

	UPDATE a SET x = b.x ,y=b.y 
	FROM #T2 a 
	INNER JOIN 
	( 
		SELECT *  FROM 
		(
			SELECT j,
			PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY x) OVER(PARTITION BY j ) AS x,
			PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY y) OVER(PARTITION BY j ) AS y
			FROM #T 
		) aa 
		GROUP BY j,x,y
	) b ON a.j = b.j
    WHERE a.x <> b.x  AND a.y<>b.y 
END  

 
SELECT *  FROM #T ORDER BY j

DROP TABLE #T
DROP TABLE #T2   

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
密度参数选取初始聚类中心的改进k-means算法如下: 1. 从数据集中随机选取一个样本作为第一个簇的中心。 2. 对于剩下的k-1个簇,计算每个样本到最近中心的距离,并选择距离最大的样本作为下一个簇的中心。 3. 根据密度参数rho选择是否更新簇心,直到收敛为止。 具体实现可以参考以下MATLAB代码: ``` function [IDX, C] = kmeans_density_init(X, k, rho) % kmeans_density_init: 密度参数选取初始聚类中心的改进k-means算法 % 输入: % X: n*d的数据矩阵,n为样本数,d为特征维数 % k: 聚类数 % rho: 密度参数 % 输出: % IDX: n*1的向量,表示每个样本所属的簇 % C: k*d的矩阵,表示每个簇的中心 % 使用样例: % [IDX, C] = kmeans_density_init(X, 3, 0.5); [n, d] = size(X); IDX = zeros(n, 1); % 随机选取一个样本作为第一个簇的中心 C = X(randi(n), :); dist = pdist2(X, C); for i = 2:k % 根据密度参数rho选择下一个簇的中心 [~, maxIdx] = max(min(dist, [], 2)); idx = find(dist(:, maxIdx) < rho * median(dist(:, maxIdx))); C(i, :) = mean(X(idx, :)); % 更新距离矩阵 dist(:, i) = pdist2(X, C(i, :)); end while true preIDX = IDX; % 计算每个样本到各个中心的距离 D = pdist2(X, C); % 计算每个样本到最近中心的距离 [minD, minIdx] = min(D, [], 2); % 根据密度参数rho选择簇心 for i = 1:k idx = find(minIdx == i); if numel(idx) > rho * n C(i, :) = mean(X(idx, :)); end end IDX = minIdx; % 判断是否收敛 if isequal(IDX, preIDX) break; end end ``` 其中,密度参数rho表示每个簇中所包含的样本数与总样本数的比例,如果大于rho的簇才会被更新中心点。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值