python 生成随机聚类数据

奔跑的梅花Lu

于 2023-08-14 14:20:01 发布

阅读量531

点赞数

分类专栏： Python 文章标签： python 聚类算法

本文链接：https://blog.csdn.net/shengsikandan/article/details/132275034

版权

Python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

def get_clusters(n,m):
    sigma = 1
    mean = [3,6,9,12]
    num = [2*n,n,int(1.2*n),int(0.8*n)]
    data = []
    label = []
    tmpdata = []
    for i in range(num[0]):
        tmpdata = []
        for j in range(m):
            tmpdata.append(random.gauss(mean[0], sigma))
        # tmpdata.append(0)
        label.append(0)
        data.append(tmpdata)
    for i in range(num[1]):
        tmpdata = []
        for j in range(m):
            tmpdata.append(random.gauss(mean[1], sigma))
        # tmpdata.append(1)
        data.append(tmpdata)
        label.append(1)
    for i in range(num[2]):
        tmpdata = []
        for j in range(m):
            tmpdata.append(random.gauss(mean[2], sigma))
        # tmpdata.append(2)
        label.append(2)
        data.append(tmpdata)
    for i in range(num[3]):
        tmpdata = []
        for j in range(m):
            tmpdata.append(random.gauss(mean[3], sigma))
        # tmpdata.append(3)
        label.append(3)
        data.append(tmpdata)    
    return data,label

数据是满足高斯分布的随机数
生成一个m维属性，样本数量=2n+n+1.2n+0.8n=5n的数据集。
每一个for循环代表一个类，共生成四个类（0，1，2，3四类）。
返回生成的数据集和对应的标签。
sigma控制方差，表示一个类的松散程度；mean是一个类的平均值，控制数据取值以及类类之间的距离。