Python | 机器学习模型构建的过程_python导入样本建立模型-CSDN博客

本文链接：https://blog.csdn.net/Saki_Python/article/details/132109577

得益于Python生态下的包共享机制，机器学习模型构建的过程其实已经变得非常简单了，很多听起来牛逼的算法，其实根本不需要自己实现，甚至都不需要知道这些算法的具体原理。只需要两步就能构建起自己的机器学习模型：明确你需要解决的问题是什么类型，以及知道解决该类型问题所对应的算法。从skicit-learn中调用相应的算法构建模型即可。是的！在机器学习领域，如果你只是抱着体验机器学习的心态，实现起来就是这么简单。常见的问题类型只有三种：分类、回归、聚类。而明确具体问题对应的类型也很简单。

摘要由CSDN通过智能技术生成

得益于Python生态下的包共享机制，机器学习模型构建的过程其实已经变得非常简单了，很多听起来牛逼的算法，其实根本不需要自己实现，甚至都不需要知道这些算法的具体原理。

只需要两步就能构建起自己的机器学习模型：

明确你需要解决的问题是什么类型，以及知道解决该类型问题所对应的算法。
从skicit-learn中调用相应的算法构建模型即可。是的！在机器学习领域，如果你只是抱着体验机器学习的心态，实现起来就是这么简单。

第一步很好解决

常见的问题类型只有三种：分类、回归、聚类。而明确具体问题对应的类型也很简单。比如，如果你需要通过输入数据得到一个类别变量，那就是分类问题。分成两类就是二分类问题，分成两类以上就是多分类问题。常见的有：判别一个邮件是否是垃圾邮件、根据图片分辨图片里的是猫还是狗等等。

如果你需要通过输入数据得到一个具体的连续数值，那就是回归问题。比如：预测某个区域的房价等。

常用的分类和回归算法算法有：SVM (支持向量机) 、xgboost、, KNN、LR算法、SGD (随机梯度下降算法)、Bayes (贝叶斯估计)以及随机森林等。这些算法大多都既可以解分类问题，又可以解回归问题。

如果你的数据集并没有对应的属性标签，你要做的，是发掘这组样本在空间的分布, 比如分析哪些样本靠的更近，哪些样本之间离得很远, 这就是属于聚类问题。常用的聚类算法有k-means算法。

在本文中，我们主要解决第二步：通过skicit-learn构建模型。告诉你你一套让你简单到想笑的通用模型构建模板。只要scikit-learn实现的算法，都可以通过这种方式快速调用。牢记这三个万能模板，你就能轻松构建起自己的机器学习模型。

预备工作

在介绍万能模板之前，为了能够更深刻地理解这三个模板，我们加载一个Iris（鸢尾花）数据集来作为应用万能模板的小例子，Iris数据集在前边的文章中已经提到过多次了，这里不再赘述。它是一个典型的多分类问题。加载步骤如下：

1、加载数据集

因为原始的数据集中包含很多空值，而且类别特征用英文名表示各个花的名字，也需要我们转换成数字。

在scikit-learn下的datasets子包里，也自带了一个Iris数据集，这个数据集和原始数据集的区别就是scikit-learn已经帮我们提前处理好了空值等问题，可以直接输入模型用来训练。所以为了方便起见，我们直接使用scikit-learn的数据集。加载方法如下：



from sklearn.datasets import load\_iris  
data = load\_iris()  
x = data.data  
y = data.target

x值如下，可以看到scikit-learn把数据集经过去除空值处理放在了array里，所以x是一个（150,4）的数组，保存了150个数据的4个特征：

array([[5.1, 3.5, 1.4, 0.2], [4.9, 3. , 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [4.6, 3.1, 1.5, 0.2], [5. , 3.6, 1.4, 0.2], [5.4, 3.9, 1.7, 0.4], [4.6, 3.4, 1.4, 0.3], [5. , 3.4, 1.5, 0.2], [4.4, 2.9, 1.4, 0.2], [4.9, 3.1, 1.5, 0.1], [5.4, 3.7, 1.5, 0.2], [4.8, 3.4, 1.6, 0.2], [4.8, 3. , 1.4, 0.1], [4.3, 3. , 1.1, 0.1], …………

y值如下，共有150行，其中0、1、2分别代表三类花：

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

2、数据集拆分

数据集拆分是为了验证模型在训练集和测试集是否过拟合，使用train_test_split的目的是保证从数据集中均匀拆分出测试集。这里，简单把10%的数据集拿出来用作测试集。



from sklearn.model\_selection import train\_test\_split  
train\_x,test\_x,train\_y,test\_y = train\_test\_split(x,y,test\_size=0.1,random\_state=0)