day23--KMeans聚类算法（day56）

最新推荐文章于 2022-10-31 14:33:41 发布

lxl。。

最新推荐文章于 2022-10-31 14:33:41 发布

阅读量178

点赞数

分类专栏： java学习日记文章标签：聚类算法 kmeans

本文链接：https://blog.csdn.net/lxl513513/article/details/124659902

版权

java学习日记专栏收录该内容

22 篇文章 1 订阅

订阅专栏

1.KMeans

KMeans聚类算法是将数据点划分为K个类簇，找到每个簇的中心并使其高度最小化
KMeans聚类算法的分析步骤

确定K值，即将数据集聚集成K个类簇
从数据集中随机选择K个数据点作为质心或数据中心
分别计算每个点到每个质心之间的距离，并将每个点划分到离最近质心的小组
当每个质心都聚集了一些点后，重新定义算法选出新的质心（对于每个簇，计算其平均值，即得到新的K个质心点）
循环执行到3,4步，直到分类结果不会改变

2.核心代码

	public void clustering() {
		//分簇的步骤，dataset.numInstances=150，和knn算法中值相同，使用的是同一个数据文件
		int[] tempOldClusterArray = new int[dataset.numInstances()];
		tempOldClusterArray[0] = -1;
		int[] tempClusterArray = new int[dataset.numInstances()];
		Arrays.fill(tempClusterArray, 0);
		double[][] tempCenters = new double[numClusters][dataset.numAttributes() - 1];

		// Step 1. Initialize centers.打乱150个数据
		int[] tempRandomOrders = getRandomIndices(dataset.numInstances());
		//然后选择K个元素
		for (int i = 0; i < numClusters; i++) {
			for (int j = 0; j < tempCenters[0].length; j++) {
				//拷贝数据
				tempCenters[i][j] = dataset.instance(tempRandomOrders[i]).value(j);
			} // Of for j
		} // Of for i

		int[] tempClusterLengths = null;
		while (!Arrays.equals(tempOldClusterArray, tempClusterArray)) {
			System.out.println("New loop ...");
			tempOldClusterArray = tempClusterArray;
			tempClusterArray = new int[dataset.numInstances()];

			// Step 2.1 Minimization. Assign cluster to each instance.
			int tempNearestCenter;
			double tempNearestDistance;
			double tempDistance;

			for (int i = 0; i < dataset.numInstances(); i++) {
				tempNearestCenter = -1;
				tempNearestDistance = Double.MAX_VALUE;

				for (int j = 0; j < numClusters; j++) {
					tempDistance = distance(i, tempCenters[j]);
					if (tempNearestDistance > tempDistance) {
						tempNearestDistance = tempDistance;
						tempNearestCenter = j;
					} // Of if
				} // Of for j
				//将每一簇分好下标
				tempClusterArray[i] = tempNearestCenter;
			} // Of for i

			// Step 2.2 Mean. Find new centers.
			tempClusterLengths = new int[numClusters];
			Arrays.fill(tempClusterLengths, 0);
			double[][] tempNewCenters = new double[numClusters][dataset.numAttributes() - 1];
			// Arrays.fill(tempNewCenters, 0);
			for (int i = 0; i < dataset.numInstances(); i++) {
				for (int j = 0; j < tempNewCenters[0].length; j++) {
					tempNewCenters[tempClusterArray[i]][j] += dataset.instance(i).value(j);
				} // Of for j
				tempClusterLengths[tempClusterArray[i]]++;
			} // Of for i

			// Step 2.3 Now average
			for (int i = 0; i < tempNewCenters.length; i++) {
				for (int j = 0; j < tempNewCenters[0].length; j++) {
					tempNewCenters[i][j] /= tempClusterLengths[i];
				} // Of for j
			} // Of for i

			System.out.println("Now the new centers are: " + Arrays.deepToString(tempNewCenters));
			tempCenters = tempNewCenters;
		} // Of while

		// Step 3. Form clusters.
		clusters = new int[numClusters][];
		int[] tempCounters = new int[numClusters];
		for (int i = 0; i < numClusters; i++) {
			clusters[i] = new int[tempClusterLengths[i]];
		} // Of for i
		

		for (int i = 0; i < tempClusterArray.length; i++) {
			clusters[tempClusterArray[i]][tempCounters[tempClusterArray[i]]] = i;
			tempCounters[tempClusterArray[i]]++;
		} // Of for i

		System.out.println("The clusters are: " + Arrays.deepToString(clusters));
	}// Of clustering

lxl。。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
day23--KMeans聚类算法（day56）

1.KMeansKMeans聚类算法是将数据点划分为K个类簇，找到每个簇的中心并使其高度最小化KMeans聚类算法的分析步骤确定K值，即将数据集聚集成K个类簇从数据集中随机选择K个数据点作为质心或数据中心分别计算每个点到每个质心之间的距离，并将每个点划分到离最近质心的小组当每个质心都聚集了一些点后，重新定义算法选出新的质心（对于每个簇，计算其平均值，即得到新的K个质心点）循环执行到3,4步，直到分类结果不会改变...
复制链接

扫一扫

专栏目录