sklearn的make_classification函数生成随机的n类分类

爱打羽毛球的小怪兽

已于 2022-05-26 19:23:30 修改

阅读量3.9k

点赞数 5

分类专栏：数据建模机器学习 sklearn 文章标签： sklearn 机器学习人工智能 python

于 2022-05-19 17:05:54 首次发布

本文链接：https://blog.csdn.net/qq_57099024/article/details/124866763

版权

数据建模同时被 3 个专栏收录

5 篇文章

订阅专栏

sklearn

3 篇文章

订阅专栏

机器学习

2 篇文章

订阅专栏

本文介绍了sklearn.datasets模块中的make_classification函数，该函数用于生成随机的多类分类问题的数据集。参数包括样本数、特征数、信息特征、冗余特征等，可用于构建和测试分类算法。示例展示了如何使用此函数创建2类分类问题，并通过matplotlib可视化数据分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

make_classification函数生成随机的n类分类问题的简介

示例如下

以下内容为官网内容以及个人的总结

下面有运行的示例，可以结合示例来对此函数进行了解，如需更多知识可以在中文官网查看

sklearn.datasets.make_classification-scikit-learn中文社区

make_classification函数生成随机的n类分类问题的简介

sklearn.datasets.make_classification(n_samples=100, n_features=20, *, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)

最初，这将创建一个边长为2 * class_sep的正态分布(std=1)在n_informative维超立方体的顶点周围的点的聚类，并为每个类分配相等数量的聚类。它引入了这些功能之间的相互依赖性，并为数据增加了各种类型的进一步噪声。

在不进行shuffle的情况下，X按以下顺序水平堆叠特征：主要的n_informative特征，然后是n_redundant线性的信息特征组合，然后是n_repeated副本，从信息和冗余特征中随机替换。其余功能充满了随机噪声。因此，没有shuffle时，所有有用的功能都包含在列X [:,:n_informative + n_redundant + n_repeated]中。

参数	说明
n_samples	int, optional (default=100) 样本数。
n_features	int, optional (default=20) 功能总数。这些包括随机绘制的n_informative信息特征，n_redundant冗余特征，n_repeated重复特征和n_features-n_informative-n_redundant-n_repeated无用特征。
n_informative	int, optional (default=2) 信息特征的数量。每个类都由多个高斯簇组成，每个簇围绕着超立方体的顶点位于n_informative维子空间中。对于每个聚类，独立于N（0，1）绘制信息特征，然后在每个聚类内随机线性组合以增加协方差。然后将簇放置在超立方体的顶点上。
n_redundant	int, optional (default=2) 冗余特征的数量。这些特征是作为信息特征的随机线性组合生成的。
n_repeated	int, optional (default=0) 从信息性和冗余性特征中随机抽取的重复性特征的数量。
n_classes	int, optional (default=2) 分类问题的类（或标签）数。
n_clusters_per_class	int, optional (default=2) 每个类的簇数。
weights	array-like of shape (n_classes,) or (n_classes - 1,), (default=None) 分配给每个类别的样本比例。如果为None，则类是平衡的。请注意，如果len（weights）== n_classes-1，则自动推断最后一个类的权重。如果weights之和超过1，则可能返回多于n_samples个样本。
flip_y	float, optional (default=0.01) 类别随机分配的样本比例。较大的值会在标签中引入噪音，并使分类任务更加困难。请注意，在某些情况下，默认设置flip_y> 0可能导致y中的类少于n_class。
class_sep	float, optional (default=1.0) 超立方体大小乘以的因子。较大的值分散了群集/类，并使分类任务更加容易。
hypercube	boolean, optional (default=True) 如果为True，则将簇放置在超立方体的顶点上。如果为False，则将簇放置在随机多面体的顶点上。
shift	float, array of shape [n_features] or None, optional (default=0.0) 按指定值移动特征。如果为None，则将特征移动[-class_sep，class_sep]中绘制的随机值。
scale	float, array of shape [n_features] or None, optional (default=1.0) 将特征乘以指定值。如果为None，则将按[1，100]中绘制的随机值缩放要素。请注意，缩放发生在移位之后。
shuffle	shuboolean, optional (default=True) shuffle样本和特征。
random_state	int, RandomState instance, default=None 确定用于生成数据集的随机数生成。为多个函数调用传递可重复输出的int值。请参阅词汇表。

返回值	说明
X	array of shape [n_samples, n_features] 生成的样本。
y	array of shape [n_samples] 每个样本的类成员的整数标签。

示例如下

from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
X,y=make_classification(n_samples=300, n_features=2, n_informative=2, n_redundant=0, n_repeated=0, n_classes=2, n_clusters_per_class=1, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=100, shuffle=True, random_state=7)
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()