Sklearn.datasets

  • 为方便验证算法,调试参数常常使用机器学习算法的随机数据生成

np.random.

  • r a n d ( d 0 , d 1 , . . . , d n ) rand(d_0, d_1, ..., d_n) rand(d0,d1,...,dn) 用来生成 d 0 ∗ d 1 . . . ∗ d n d_0*d_1 ...*d_n d0d1...dn维的数组。数组的值在[0,1)之间。
  • r a n d n ( d 0 , d 1 , . . . , d n ) randn(d_0, d_1, ..., d_n) randn(d0,d1,...,dn)用来生成 d 0 ∗ d 1 . . . ∗ d n d_0*d_1 ...*d_n d0d1...dn维的数组。数组的值服从N(0,1)的标准正态分布。如需服从 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的正态分布,只需要在randn上做变换𝜎𝑥+𝜇即可。
  • r a n d i n t ( l o w [ , h i g h , s i z e ] ) randint(low[, high, size]) randint(low[,high,size])生成随机大小为size的整数。值位于半开区间 [low, high)。
  • r a n d o m _ i n t e g e r s ( l o w [ , h i g h , s i z e ] ) random\_integers(low[, high, size]) random_integers(low[,high,size])和randint类似,区别在与取值范围是闭区间[low, high]
  • r a n d o m _ s a m p l e ( [ s i z e ] ) random\_sample([size]) random_sample([size]), 返回半开区间 [0.0, 1.0)内的随机浮点数。如果是其他区间[a,b),可以加以转换(b - a) * random_sample([size]) + a

Sklearn.datasets

  • make_regression 生成回归模型的数据
    关键参数有n_samples(生成样本数), n_features(样本特征数),noise(样本随机噪音)和coef(是否返回回归系数)

  • make_classification,make_hastie_10_2或者make_multilabel_classification生成分类模型数据
    几个关键参数有n_samples(生成样本数), n_features(样本特征数), n_redundant(冗余特征数)和n_classes(输出的类别数)

  • make_blobs生成聚类模型数据
    关键参数有n_samples(生成样本数), n_features(样本特征数),centers(簇中心的个数或者自定义的簇中心)和cluster_std(簇数据方差,代表簇的聚合程度)

  • make_gaussian_quantiles生成分组多维正态分布的数据
    关键参数有n_samples(生成样本数), n_features(正态分布的维数),mean(特征均值), cov(样本协方差的系数), n_classes(数据在正态分布中按分位数分配的组数)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值