都是做毕设时练手熟悉的小demo,没什么意义。
仅供参考。
import torch
import math
import matplotlib.pyplot as plt
# 计算两点之间的距离并返回结果
def dis(a, b):
return math.sqrt((a[0] - b[0]) * (a[0] - b[0]) + (a[1] - b[1]) * (a[1] - b[1]))
# 生成2000个随机数[-100到100),并*100是放大100倍
X = torch.randn(2000) * 100
y = torch.randn(2000) * 100
C = torch.zeros(2000)
K = 5
CentPoint = []#生成了一个空列表
# for循环生成了5个【-100,100)之间的数组,即代码第一行整数输出
for i in range(K):
CentPoint.append([torch.randint(-100, 100, (1,)).item(),
torch.randint(-100, 100, (1,)).item()])
print(CentPoint)
for p in range(10):
NewPoint = [[0, 0] for i in range(K)]# 初始化一个列表元素,每个数组都是【0,0】
for i in range(len(X)):
mDis = 1e9
mC = 0
for j in range(len(CentPoint)):
cp = CentPoint[j]
D = dis([X[i].item(), y[i].item()], cp)# 计算【x,y】表示第一个点的坐标,cp是第二个点的坐标
if mDis > D:
mDis = D
mC = j
C[i] = mC
NewPoint[mC][0] += X[i].item()
NewPoint[mC][1] += y[i].item()
for i in range(K):
CentPoint[i][0] = NewPoint[i][0] / 2000
CentPoint[i][1] = NewPoint[i][1] / 2000
print(CentPoint)
cc = list(C)
for i in range(len(X)):
if cc[i] == 0:
plt.plot(X[i].item(), y[i].item(), 'r.')
elif cc[i] == 1:
plt.plot(X[i].item(), y[i].item(), 'g.')
elif cc[i] == 2:
plt.plot(X[i].item(), y[i].item(), 'b.')
elif cc[i] == 3:
plt.plot(X[i].item(), y[i].item(), color='pink', marker='.')
elif cc[i] == 4:
plt.plot(X[i].item(), y[i].item(), color='orange', marker='.')
for CP in CentPoint:
plt.plot(CP[0], CP[1], color='black', marker='X')
plt.show()
聚类数指的是在聚类分析中需要分成的簇(cluster)的数量。在KMeans聚类算法中,聚类数是一个需要提前指定的参数。这个参数的选择通常是基于数据的特性和分析目的而确定的。
在选择聚类数时,通常需要进行试验和比较,以找到最合适的聚类数。常见的方法包括手肘法(elbow method)、轮廓系数法(silhouette method)和Gap统计量法(Gap statistic method)等。这些方法通过计算不同聚类数对应的聚类效果指标,帮助选择最优的聚类数。
聚类数的选择对聚类结果影响很大,如果聚类数太小,可能会将不同的群体归为同一簇,导致聚类结果不准确;而聚类数过多,则可能导致聚类效果不明显、无法识别出有意义的簇。kmeans.fit(img_data) 是使用KMeans算法对输入数据 img_data 进行聚类的代码,其中 kmeans 是一个KMeans类的实例对象。
在KMeans算法中,fit() 方法用于拟合聚类模型,即对输入数据进行聚类,并得到聚类结果。具体来说,fit()方法会根据输入数据和指定的聚类数,通过迭代算法优化聚类中心的位置,以最小化聚类误差(即样本点到所属簇中心的距离平方和)。
聚类完成后,可以通过 kmeans.labels_ 属性获取每个数据点所属的簇的标签(即聚类结果),通过kmeans.cluster_centers_ 属性获取每个簇的中心点。这些属性可以用于进一步的分析和可视化。