Sklearn.datasets

最新推荐文章于 2024-05-22 17:12:34 发布

kakak_

最新推荐文章于 2024-05-22 17:12:34 发布

阅读量191

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105267159

版权

38 篇文章 2 订阅

订阅专栏

np.random.

$rand(d_0, d_1, ..., d_n)$ 用来生成 $d_0*d_1 ...*d_n$ 维的数组。数组的值在[0,1)之间。
$randn(d_0, d_1, ..., d_n)$ 用来生成 $d_0*d_1 ...*d_n$ 维的数组。数组的值服从N(0,1)的标准正态分布。如需服从 $N(\mu,\sigma^2)$ 的正态分布，只需要在randn上做变换𝜎𝑥+𝜇即可。
$r a n d i n t (l o w [, h i g h, s i z e])$ 生成随机大小为size的整数。值位于半开区间 [low, high)。
$random\_integers(low[, high, size])$ 和randint类似，区别在与取值范围是闭区间[low, high]
$random\_sample([size])$ , 返回半开区间 [0.0, 1.0)内的随机浮点数。如果是其他区间[a,b)，可以加以转换(b - a) * random_sample([size]) + a

Sklearn.datasets

make_regression 生成回归模型的数据
关键参数有n_samples（生成样本数）， n_features（样本特征数），noise（样本随机噪音）和coef（是否返回回归系数）
make_classification，make_hastie_10_2或者make_multilabel_classification生成分类模型数据
几个关键参数有n_samples（生成样本数）， n_features（样本特征数）， n_redundant（冗余特征数）和n_classes（输出的类别数）
make_blobs生成聚类模型数据
关键参数有n_samples（生成样本数）， n_features（样本特征数），centers(簇中心的个数或者自定义的簇中心)和cluster_std（簇数据方差，代表簇的聚合程度）
make_gaussian_quantiles生成分组多维正态分布的数据
关键参数有n_samples（生成样本数）， n_features（正态分布的维数），mean（特征均值）， cov（样本协方差的系数）， n_classes（数据在正态分布中按分位数分配的组数）