机器学习系列03：训练监督学习算法的主要步骤

最新推荐文章于 2024-05-28 00:00:00 发布

加百力

最新推荐文章于 2024-05-28 00:00:00 发布

阅读量1.2k

点赞数 11

分类专栏：深度学习文章标签：机器学习学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gabriel100yi/article/details/135054101

版权

深度学习专栏收录该内容

42 篇文章 2 订阅

订阅专栏

训练监督学习算法的主要有以下5个步骤：

数据预处理
选择一个衡量机器学习模型性能的指标
选择机器学习算法并训练模型
评估模型的性能
调整算法参数设置并调试模型

本文还是使用《机器学习系列02：第一个机器学习算法—感知机》一文中介绍的感知机算法和鸢尾花数据集为例简要说明一下这5个步骤。

一、数据预处理

我们已经收集到了150个带有品种标签的鸢尾花样本组成的训练集，经过组内一致论证后（实际工作中，特征选择非常麻烦且耗时，这里为了节省篇幅和照顾初学者，就假设已经选好了特征，后面我们会逐渐学习这些技巧），我们选择萼片长度和花瓣长度作为区分3种鸢尾花品种的特征。

那么我们现在就加载数据集：

在机器学习领域中一般用大写字母 X 表示特征集，可以看到这里 X 是一个 150 行 2 列的矩阵。每行对应一个样本，每列对应样本的一个特征，y 表示样本所属的类别或者目标值（target value）。

不过有一个问题，y 里面的值是文字，这对机器学习算法来说可行不通，我们需要借助 scikit-learn 提供的 LabelEncoder 来将文字标签转成数字。

现在将手头上的数据集按照 7:3 的比例随机将样本分配到训练集和测试集中，为了保证划分之后的训练集和测试集中每个类别的样本数量分布均匀，我们需要分层采样。

现在训练集和测试集中的样本已经完全被随机打乱了。

X_train 和 X_test 其实是 numpy array，所以我们可以通过将其转成 pandas dataframe 的形式查看2个数值特征的统计数据。可以看到，这2个特征的取值范围分别是 4.3 ~ 7.9 和 1.0 ~ 6.9。

许多机器学习优化算法在特征取值范围都一致时才能发挥最大功效，所以现在还需要对这2个数值特征进行缩放。

二、选择一个衡量机器学习模型性能的指标

我们现在要处理的是分类问题，分类问题最常用的性能指标就是：精度、召回率、准确率、F1值。

三、选择机器学习算法并训练模型

为特定问题和任务选择合适的分类算法需要从实践出发，也和你的经验相关；每种算法都有自己的优劣点，并且基于某些假设前提。套用 David H. Wolpert 的“没有免费午餐”（no free lunch）定理，没有一个分类器能够在所有可能的场景中表现最佳。在实践中，我始终建议你比较几种不同学习算法的性能，以选择针对特定问题的最佳模型。而且还要考虑数据集的特征或样本的数量、数据集中的噪声量以及数据集中的样本是否可线性分等。

现在我们只会感知机，所以还是选择感知机。

四、评估模型的性能

单从准确率上看，感知机在训练集上的性能要远优于在测试集上的性能，这就是我们将要遇到的过拟合问题。这里先不做过多讨论。

我们再通过可视化的方式看一下分类决策超平面。

如果数据集线性不可分，那么感知机算法永远不会收敛，从上图也可以看出，感知机并不是一个好的选择。

五、调整算法参数设置并调试模型

结果不理想，一般会选择通过模型的参数或者干脆尝试另一个算法。不过本文的目的是展示一下机器学习问题的一般处理步骤，限于篇幅，先不讨论这一步了，以后会介绍的。

总结

我简单地以感知机算法区分鸢尾花品种的例子说明了机器学习的基本步骤，目的是让初学者形成一个大概的框架。

关注

11
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
机器学习系列03：训练监督学习算法的主要步骤

我简单地以感知机算法区分鸢尾花品种的例子说明了机器学习的基本步骤，目的是让初学者形成一个大概的框架。
复制链接

扫一扫

专栏目录

加百力 CSDN认证博客专家 CSDN认证企业博客

码龄179天

431: 原创

2675: 周排名

2184: 总排名

63万+: 访问

: 等级

1万+: 积分

5403: 粉丝

7232: 获赞

284: 评论

5488: 收藏

私信

关注

热门文章

分类专栏

最新评论

金融监管总局：商业银行净息差1.54%！ & 因为这个原因，“木头姐”少赚了十亿美元
程序边界: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
未来五年的芯片大赢家
程序边界: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
价值飙升30%，AI PC拉动半导体出货潮
程序边界: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
A股重磅！史上最严减持新规，发布！
程序边界: 博主的文章总是让人受益匪浅，知识的分享太有价值了，期待你继续灌输智慧！博主的文字清晰明了，让我在这个领域更加有信心，真的谢谢你的辛勤付出。
微软开发者大会：编程进入自然语言时代、“AI员工”闪亮登场
豆小匠: 干货啊，微软开发者大会上的内容真是令人振奋！编程进入自然语言时代，意味着我们可以更加便捷地与计算机交流，实现更高效的人机交互。而“AI员工”的闪亮登场，更是预示着人工智能技术的巨大潜力。感谢分享，期待未来这些技术能够为我们带来更多便利和创新！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。