sklearn.datasets中的make_blobs函数解析

sklearn.datasets中的make_blobs函数在机器学习生成数据集以自建模型中应用广泛,此文就其格式及参数设置说明如下:

函数格式及默认参数设置

sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)

函数功能

生成各向同性的高斯斑点以进行聚类。

参数

n_samples:int或数组类,可选参数(默认值= 100)
如果为int,则为在簇之间平均分配的点总数。 如果是数组,则序列中的每个元素表示每个簇的样本数。
n_features:int,可选(默认值= 2)
每个样本的特征数量。
centers:int或形状数组[n_centers,n_features],可选
(默认= None)要生成的中心数或固定的中心位置。 如果n_samples是一个int且center为None,则将生成3个中心。 如果n_samples是数组类,则中心必须为None或长度等于n_samples长度的数组。
cluster_std: 浮点数或浮点数序列,可选(默认值为1.0)
聚类的标准偏差。
center_box: 一对浮点数(最小,最大),可选(默认=(-10.0,10.0))
随机生成中心时每个聚类中心的边界框。
shuffle:布尔值,可选(默认= True)
样本洗牌
random_state:int,RandomState实例或无(默认)
确定用于创建数据集的随机数生成。 为多个函数调用传递可重复输出的int值。

返回值

形状为[n_samples,n_features]的X数组
形状为[n_samples]的y数组

示例:

from IPython.display import Image
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import numpy as np
from matplotlib import cm
from sklearn.metrics import silhouette_samples

X, y = make_blobs(n_samples=150,
                  n_features=2,
                  centers=3,
                  cluster_std=0.5,
                  shuffle=True,
                  random_state=0)
plt.scatter(X[:, 0], X[:, 1], c='white', marker='o', edgecolors='black', s=50)
plt.grid()
plt.tight_layout()

plt.savefig('./day7.png', dpi=300)
plt.show()
X, y = make_blobs(n_samples=[3, 3, 4], centers=None, n_features=2,
                  random_state=0)
#看看数据集长什么样
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="rainbow");

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值