机器学习原来如此简单，万能模板直接用

最新推荐文章于 2024-10-02 18:56:51 发布

m0_67265464

最新推荐文章于 2024-10-02 18:56:51 发布

阅读量383

点赞数

分类专栏：面试学习路线阿里巴巴文章标签： android 前端后端

本文链接：https://blog.csdn.net/m0_67265464/article/details/124791872

版权

本文介绍了如何使用Python的sklearn库通过万能模板快速构建机器学习模型，包括分类、回归和聚类问题。文章提供了从加载数据、数据预处理到模型构建的步骤，并详细解释了万能模板V1.0、V2.0和V3.0版，适用于SVM、LR和随机森林等算法。

摘要由CSDN通过智能技术生成

机器学习是伴随着人工智能火起来的一个领域，听着名字似乎门槛很高。但是，得益于Python生态下的包共享机制，机器模型构建的过程其实已经变得非常简单了，很多听起来牛逼的算法，其实根本不需要自己实现，甚至都不需要知道这些算法的具体原理。

只需要两步就能构建起自己的机器学习模型：

明确你需要解决的问题是什么类型，以及知道解决该类型问题所对应的算法。
从skicit-learn中调用相应的算法构建模型即可。是的！在机器学习领域，如果你只是抱着体验机器学习的心态，实现起来就是这么简单。

明确要解决的问题

常见的问题类型只有三种：分类、回归、聚类。而明确具体问题对应的类型也很简单。比如，如果你需要通过输入数据得到一个类别变量，那就是分类问题。分成两类就是二分类问题，分成两类以上就是多分类问题。常见的有：判别一个邮件是否是垃圾邮件、根据图片分辩图片里的是猫还是狗等等。

如果你需要通过输入数据得到一个具体的连续数值，那就是回归问题。比如：预测某个区域的房价等。

常用的分类和回归算法算法有：SVM (支持向量机) 、xgboost、, KNN、LR算法、SGD (随机梯度下降算法)、Bayes (贝叶斯估计)以及随机森林等。这些算法大多都既可以解分类问题，又可以解回归问题。

如果你的数据集并没有对应的属性标签，你要做的，是发掘这组样本在空间的分布, 比如分析哪些样本靠的更近，哪些样本之间离得很远, 这就是属于聚类问题。常用的聚类算法有k-means算法。

在本文中，我们主要解决第二步：通过skicit-learn构建模型。告诉你你一套让你简单到想笑的通用模型构建模板。只要scikit-learn实现的算法，都可以通过这种方式快速调用。牢记这三个万能模板，你就能轻松构建起自己的机器学习模型。

预备工作

在介绍万能模板之前，为了能够更深刻地理解这三个模板，我们加载一个Iris（鸢尾花）数据集来作为应用万能模板的小例子，Iris数据集在前边的文章中已经提到过多次了，这里不再赘述。它是一个典型的多分类问题。加载步骤如下：

1、加载数据集

因为原始的数据集中包含很多空值，而且类别特征用英文名表示各个花的名字，也需要我们转换成数字。

在scikit-learn下的datasets子包里，也自带了一个Iris数据集，这个数据集和原始数据集的区别就是scikit-learn已经帮我们提前处理好了空值等问题，可以直接输入模型用来训练。所以为了方便起见，我们直接使用scikit-learn的数据集。加载方法如下：

from sklearn.datasets import load_iris
data = load_iris()
x = data.data
y = data.target

x值如下，可以看到scikit-learn把数据集经过去除空值处理放在了array里，所以x是一个（150,4）的数组，保存了150个数据的4个特征：

array([[5.1, 3.5, 1.4, 0.2], [4.9, 3. , 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [4.6, 3.1, 1.5, 0.2], [5. , 3.6, 1.4, 0.2], [5.4, 3.9, 1.7, 0.4], [4.6, 3.4, 1.4, 0.3], [5. , 3.4, 1.5, 0.2], [4.4, 2.9, 1.4, 0.2], [4.9, 3.1, 1.5, 0.1], [5.4, 3.7, 1.5, 0.2], [4.8, 3.4, 1.6, 0.2], [4.8, 3. , 1.4, 0.1], [4.3, 3. , 1.1, 0.1], …………

y值如下，共有150行，其中0、1、2分别代表三类花：

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2