- 为方便验证算法,调试参数常常使用机器学习算法的随机数据生成
np.random.
- r a n d ( d 0 , d 1 , . . . , d n ) rand(d_0, d_1, ..., d_n) rand(d0,d1,...,dn) 用来生成 d 0 ∗ d 1 . . . ∗ d n d_0*d_1 ...*d_n d0∗d1...∗dn维的数组。数组的值在[0,1)之间。
- r a n d n ( d 0 , d 1 , . . . , d n ) randn(d_0, d_1, ..., d_n) randn(d0,d1,...,dn)用来生成 d 0 ∗ d 1 . . . ∗ d n d_0*d_1 ...*d_n d0∗d1...∗dn维的数组。数组的值服从N(0,1)的标准正态分布。如需服从 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的正态分布,只需要在randn上做变换𝜎𝑥+𝜇即可。
- r a n d i n t ( l o w [ , h i g h , s i z e ] ) randint(low[, high, size]) randint(low[,high,size])生成随机大小为size的整数。值位于半开区间 [low, high)。
- r a n d o m _ i n t e g e r s ( l o w [ , h i g h , s i z e ] ) random\_integers(low[, high, size]) random_integers(low[,high,size])和randint类似,区别在与取值范围是闭区间[low, high]
- r a n d o m _ s a m p l e ( [ s i z e ] ) random\_sample([size]) random_sample([size]), 返回半开区间 [0.0, 1.0)内的随机浮点数。如果是其他区间[a,b),可以加以转换(b - a) * random_sample([size]) + a
Sklearn.datasets
-
make_regression 生成回归模型的数据
关键参数有n_samples(生成样本数), n_features(样本特征数),noise(样本随机噪音)和coef(是否返回回归系数) -
make_classification,make_hastie_10_2或者make_multilabel_classification生成分类模型数据
几个关键参数有n_samples(生成样本数), n_features(样本特征数), n_redundant(冗余特征数)和n_classes(输出的类别数) -
make_blobs生成聚类模型数据
关键参数有n_samples(生成样本数), n_features(样本特征数),centers(簇中心的个数或者自定义的簇中心)和cluster_std(簇数据方差,代表簇的聚合程度) -
make_gaussian_quantiles生成分组多维正态分布的数据
关键参数有n_samples(生成样本数), n_features(正态分布的维数),mean(特征均值), cov(样本协方差的系数), n_classes(数据在正态分布中按分位数分配的组数)