def get_clusters(n,m):
sigma = 1
mean = [3,6,9,12]
num = [2*n,n,int(1.2*n),int(0.8*n)]
data = []
label = []
tmpdata = []
for i in range(num[0]):
tmpdata = []
for j in range(m):
tmpdata.append(random.gauss(mean[0], sigma))
# tmpdata.append(0)
label.append(0)
data.append(tmpdata)
for i in range(num[1]):
tmpdata = []
for j in range(m):
tmpdata.append(random.gauss(mean[1], sigma))
# tmpdata.append(1)
data.append(tmpdata)
label.append(1)
for i in range(num[2]):
tmpdata = []
for j in range(m):
tmpdata.append(random.gauss(mean[2], sigma))
# tmpdata.append(2)
label.append(2)
data.append(tmpdata)
for i in range(num[3]):
tmpdata = []
for j in range(m):
tmpdata.append(random.gauss(mean[3], sigma))
# tmpdata.append(3)
label.append(3)
data.append(tmpdata)
return data,label
数据是满足高斯分布的随机数
生成一个m维属性,样本数量=2n+n+1.2n+0.8n=5n的数据集。
每一个for循环代表一个类,共生成四个类(0,1,2,3四类)。
返回生成的数据集和对应的标签。
sigma
控制方差,表示一个类的松散程度;mean
是一个类的平均值,控制数据取值以及类类之间的距离。