python机器学习：深入浅出 Python 机器学习：数据生成

2301_80289624

于 2024-04-08 22:12:17 发布

阅读量1.1k

点赞数 9

文章标签： python 机器学习开发语言 sklearn

本文链接：https://blog.csdn.net/2301_80289624/article/details/137525398

版权

本文讲述了如何使用scikit-learn的make_blobs,make_regression,和train_test_split方法生成和划分数据集，以及关键参数的解释和注意事项。

摘要由CSDN通过智能技术生成

基于头歌的数据生成。

第一关：生成分类数据集

机器学习中的分类问题的基本结构：分类问题和回归问题

分类问题：一个事物有n个特征，我们该通过什么样的方法将其划分到m类中。其中这n个特征和这m个类别都是由人来定义的，而这个划分方法的大框架也是由人来指定，但是方法的细节却是由机器通过预先设计好的算法在给定的训练数据集上学习得来的。

所以所谓的机器学习，其实学习的只是划分方法的细节而已。而事物的特征，类别，以及大方法的框架却都是由人来划分的。所以说在机器学习中，最重要的问题就是如何划分事物的特征，确定事物的类别 （学习框架的选择相比之下会容易许多）。这也是计算机科学的根本问题，即如何将现实世界的事物抽象为计算机可表示的模型。大家在学习机器学习或算法之类的课程时往往会沉迷于其中的算法细节，如书本在讲述机器学习算法时都是将特征与类别确定好了的，只需要去跑算法就好了，但往往会忘记最重要的事情。

不过万幸，scikit-learn 中有着内置的，非常完善的数据生成和加载机制。我们这一节先来讲述最简单的数据生成方法： `make_blobs`。

make_blobs方法的原型如下：

sklearn.datasets.make_blobs(
n_samples,
n_features,
centers,
cluster_std,
center_box,
shuffle,
random_state
)

其中各个参数的含义如下：

n_samples：一个整数或一个整数数组，当输入为一个整数时，表示将要生成的数据总量。当输入为一个整数数组时，表示需要为每一类生成的数据量。默认值为100。
n_features：一个整数，表示特征的数量。默认值为2。
centers：生成的数据中心的数量。（即生成的种类数）可以是 None或者一个整数或者是一个整数数组。当centers为None且n_samples为整数时，会生成3个中心。当n_samples为整数数组时，centers必须为与n_samples一样长度的整数数组。默认值为None
cluster_std：一个浮点数，表示数据之间的标准差，默认值为1.0。
center_box：一个浮点数对，表示生成的每一类的中心的下限与上限。默认值为(-10.0, 10.0)。
shuffle：一个布尔值，表示是否要打乱生成的数据。默认为True。
random_state：None或者一个整数，当输入为一个整数时，表示这次生成数据过程的随机因子。换句话说，如果两次调用make_blobs生成数据时，如果random_state是同一个整数，且其他参数都相同，则生成的数据是一样的。