sklearn的make_classification函数生成随机的n类分类

目录

make_classification函数生成随机的n类分类问题的简介

 示例如下


以下内容为官网内容以及个人的总结

下面有运行的示例,可以结合示例来对此函数进行了解,如需更多知识可以在中文官网查看

sklearn.datasets.make_classification-scikit-learn中文社区

make_classification函数生成随机的n类分类问题的简介

sklearn.datasets.make_classification(n_samples=100, n_features=20, *, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)

最初,这将创建一个边长为2 * class_sep的正态分布(std=1)在n_informative维超立方体的顶点周围的点的聚类,并为每个类分配相等数量的聚类。它引入了这些功能之间的相互依赖性,并为数据增加了各种类型的进一步噪声。

在不进行shuffle的情况下,X按以下顺序水平堆叠特征:主要的n_informative特征,然后是n_redundant线性的信息特征组合,然后是n_repeated副本,从信息和冗余特征中随机替换。其余功能充满了随机噪声。因此,没有shuffle时,所有有用的功能都包含在列X [:,:n_informative + n_redundant + n_repeated]中。

参数说明
n_samplesint, optional (default=100)
样本数。
n_featuresint, optional (default=20)
功能总数。这些包括随机绘制的n_informative信息特征,n_redundant冗余特征,n_repeated重复特征和n_features-n_informative-n_redundant-n_repeated无用特征。
n_informativeint, optional (default=2)
信息特征的数量。每个类都由多个高斯簇组成,每个簇围绕着超立方体的顶点位于n_informative维子空间中。对于每个聚类,独立于N(0,1)绘制信息特征,然后在每个聚类内随机线性组合以增加协方差。 然后将簇放置在超立方体的顶点上。
n_redundantint, optional (default=2)
冗余特征的数量。 这些特征是作为信息特征的随机线性组合生成的。
n_repeatedint, optional (default=0)
从信息性和冗余性特征中随机抽取的重复性特征的数量。
n_classesint, optional (default=2)
分类问题的类(或标签)数。
n_clusters_per_classint, optional (default=2)
每个类的簇数。
weightsarray-like of shape (n_classes,) or (n_classes - 1,), (default=None)
分配给每个类别的样本比例。 如果为None,则类是平衡的。 请注意,如果len(weights)== n_classes-1,则自动推断最后一个类的权重。如果weights之和超过1,则可能返回多于n_samples个样本。
flip_yfloat, optional (default=0.01)
类别随机分配的样本比例。 较大的值会在标签中引入噪音,并使分类任务更加困难。 请注意,在某些情况下,默认设置flip_y> 0可能导致y中的类少于n_class。
class_sepfloat, optional (default=1.0)
超立方体大小乘以的因子。 较大的值分散了群集/类,并使分类任务更加容易。
hypercubeboolean, optional (default=True)
如果为True,则将簇放置在超立方体的顶点上。 如果为False,则将簇放置在随机多面体的顶点上。
shiftfloat, array of shape [n_features] or None, optional (default=0.0)
按指定值移动特征。 如果为None,则将特征移动[-class_sep,class_sep]中绘制的随机值。
scalefloat, array of shape [n_features] or None, optional (default=1.0)
将特征乘以指定值。如果为None,则将按[1,100]中绘制的随机值缩放要素。请注意,缩放发生在移位之后。
shuffleshuboolean, optional (default=True)
shuffle样本和特征。
random_stateint, RandomState instance, default=None
确定用于生成数据集的随机数生成。 为多个函数调用传递可重复输出的int值。 请参阅词汇表
返回值说明
Xarray of shape [n_samples, n_features]
生成的样本。
yarray of shape [n_samples]
每个样本的类成员的整数标签。

 示例如下

from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
X,y=make_classification(n_samples=300, n_features=2, n_informative=2, n_redundant=0, n_repeated=0, n_classes=2, n_clusters_per_class=1, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=100, shuffle=True, random_state=7)
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()

  • 5
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱打羽毛球的小怪兽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值