一个完整的机器学习项目在Python中演练（三）

最新推荐文章于 2024-08-11 14:03:51 发布

磐创 AI

最新推荐文章于 2024-08-11 14:03:51 发布

阅读量5.4k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/fendouaini/article/details/80571694

版权

本文是关于在Python中实施机器学习项目的系列文章的第三部分，讲解模型评估、模型选择以及如何在Scikit-Learn中实现这些模型。内容包括缺失值填补、特征缩放，以及使用线性回归、KNN、随机森林、GBM和SVM等模型的性能比较。文章强调了在实际项目中，选择和优化模型的重要性，以及如何避免过拟合和欠拟合的问题。

摘要由CSDN通过智能技术生成

大家往往会选择一本数据科学相关书籍或者完成一门在线课程来学习和掌握机器学习。但是，实际情况往往是，学完之后反而并不清楚这些技术怎样才能被用在实际的项目流程中。就像你的脑海中已经有了一块块”拼图“（机器学习技术），你却不知道如何讲他们拼起来应用在实际的项目中。如果你也遇见过同样的问题，那么这篇文章应该是你想要的。本系列文章将介绍一个针对真实世界实际数据集的完整机器学习解决方案，让你了解所有部分如何结合在一起。

本系列文章按照一般机器学习工作流程逐步进行：

数据清洗与格式处理
探索性数据分析
特征工程和特征选取
机器学习模型性能指标评估
微调最佳模型（超参数）
在测试集上评估最佳模型
解释模型结果
总结分析

通过完成所有流程，我们将看到每个步骤之间是怎么联系起来的，以及如何在Python中专门实现每个部分。该项目在GitHub上可以找到，附实现过程。本篇文章将详细介绍第四-五个步骤，剩下的内容将在后面的文章中介绍。前三个步骤详见：数据清洗与格式处理、探索性数据分析、特征工程和特征选取。

模型评估和模型选择

需要时刻注意的是，我们正在解决的是一项有监督回归任务：使用纽约市建筑的能源数据，开发一个能够预测建筑物能源之星评分的模型。预测的准确性和模型的可解释性是最重要的两个指标。

从大量现有的机器学习模型中选择出适用的模型并不是一件容易的事。尽管有些“模型分析图表”（如下图）试图告诉你要去选择哪一种模型，但亲自去尝试多种算法，并根据结果比较哪种模型效果最好，也许是更好的选择。机器学习仍然是一个主要由经验（实验）而不是理论结果驱动的领域，事先就知道哪种模型最好，几乎是不可能的。