机器学习解决问题的步骤

最新推荐文章于 2024-07-30 01:28:06 发布

tuqinag

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量1.2w

点赞数 2

分类专栏：机器学习算法文章标签：机器学习

本文链接：https://blog.csdn.net/tuqinag/article/details/54730360

版权

本文详细介绍了机器学习解决问题的五个步骤：定义问题、数据预处理、算法抽查、结果改进和结果展示。强调了问题定义的重要性，数据预处理中的数据清洗、采样和转换，以及算法抽查和结果优化的技术。此外，还提到了特征工程和集成方法作为提升结果的有效手段。

摘要由CSDN通过智能技术生成

机器学习解决问题的步骤

针对任何一个打算由机器学习算法来解决的问题，都有一种『套路』存在，只要按照这个模板『按部就班』就能够得到一个结果。就跟一个产品的生产流水线是一个道理。但是得到结果的好坏跟你是否是一个『熟练工』有很大的关系。因为在解决具体的问题中有许多的tricks对于结果的提升有所帮助。

整个『套路』能分为以下5个步骤：

定义问题
对数据进行预处理
算法的抽查
对结果进行优化
结果展示

这里非常笼统地概括了整个流程，对于实际的问题，还是需要『见风使舵』，要灵活运用模板。接下来对每一个步骤进行一些解释吧。

定义问题

这个步骤对于整个流程的重要性是显而易见的，如果在解决问题的一开始就已经犯了方向性的错误，结果只能是南辕北辙。例如拿一个分类算法去解决一个聚类问题，显然这并不能得到正确的结果。还有一个误区就是迷信性能强的算法，比如svm。任何的分类问题都是用svm去解决，有可能在一些情况下logistic回归能达到更好的结果。所以，首先就需要弄清楚问题的本质。

这里我本人并没有非常丰富的实践经验，所以并不能给出非常多的建设性的意见。这里我只说说其中的一个点吧，就是寻找相似性的问题。这里有一个非常重要的技巧叫做fine-tuning。

这里拿神经网络来举一个例子吧。某人已经在一个数据集上针对一个任务训练好了一个网络，如果你要解决的问题也同样是针对这一个数据集，只不过是任务不同。这一点其实在自然语言处理上还是比较常见的。那么就可以复用网络前面那些层的权值，只针对你的任务改变输出层或是输出层之前的几层。在学习率的设置上，因为前面层次已经是训练好的了，需要设置的比较小，而后面的层次需要设置的大一点。这样的做法能够显著地降低