sklearn.datasets中的make_blobs函数解析

最新推荐文章于 2024-05-22 17:12:34 发布

Zen of Data Analysis

最新推荐文章于 2024-05-22 17:12:34 发布

阅读量1.1w

点赞数 9

分类专栏：机器学习算法 Python 文章标签：机器学习算法 python

本文链接：https://blog.csdn.net/gracejpw/article/details/102289684

版权

机器学习同时被 3 个专栏收录

88 篇文章 32 订阅

订阅专栏

算法

85 篇文章 5 订阅

订阅专栏

Python

58 篇文章 2 订阅

订阅专栏

sklearn.datasets中的make_blobs函数在机器学习生成数据集以自建模型中应用广泛，此文就其格式及参数设置说明如下:

函数格式及默认参数设置

sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)

函数功能

生成各向同性的高斯斑点以进行聚类。

参数

n_samples：int或数组类，可选参数（默认值= 100）
如果为int，则为在簇之间平均分配的点总数。如果是数组，则序列中的每个元素表示每个簇的样本数。
n_features：int，可选（默认值= 2）
每个样本的特征数量。
centers：int或形状数组[n_centers，n_features]，可选
（默认= None）要生成的中心数或固定的中心位置。如果n_samples是一个int且center为None，则将生成3个中心。如果n_samples是数组类，则中心必须为None或长度等于n_samples长度的数组。
cluster_std: 浮点数或浮点数序列，可选（默认值为1.0）
聚类的标准偏差。
center_box: 一对浮点数（最小，最大），可选（默认=（-10.0，10.0））
随机生成中心时每个聚类中心的边界框。
shuffle：布尔值，可选（默认= True）
样本洗牌
random_state：int，RandomState实例或无（默认）
确定用于创建数据集的随机数生成。为多个函数调用传递可重复输出的int值。

返回值

形状为[n_samples，n_features]的X数组
形状为[n_samples]的y数组

示例

# make_blobs示例
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=10, centers=3, n_features=2,
                   random_state=0)
#看看数据集长什么样
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="rainbow");

运行结果
在这里插入图片描述

X, y = make_blobs(n_samples=[3, 3, 4], centers=None, n_features=2,
                  random_state=0)
#看看数据集长什么样
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="rainbow");

在这里插入图片描述
可见，n_samples=10与n_samples=[3, 3, 4]等价，centers=3与centers=None等价，验证了默认值的定义。

Zen of Data Analysis

关注

9
点赞
踩
46

收藏

觉得还不错? 一键收藏
0
评论
sklearn.datasets中的make_blobs函数解析

sklearn.datasets中的make_blobs函数在机器学习生成数据集以自建模型中应用广泛，此文就其格式及参数设置说明如下:函数格式及默认参数设置sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffl...
复制链接

扫一扫