8、机器学习分类入门：训练、测试与简单分类器

sat99

于 2025-06-07 11:57:56 发布

阅读量52

点赞数

CC 4.0 BY-SA版权

分类专栏： Python机器学习实战指南文章标签：机器学习分类入门训练与测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sat99/article/details/149383360

Python机器学习实战指南专栏收录该内容

47 篇文章 ¥69.90 ¥499.90 限时 7 天

订阅专栏

超级会员免费看

机器学习分类入门：训练、测试与简单分类器

1. 训练与测试：避免应试教学

在机器学习中，我们使用数据的方式至关重要。以学习课程为例，我们不仅希望取得好成绩，更希望能将所学知识应用于现实世界。成绩只是衡量我们在现实中表现的替代指标，但它可能无法准确反映我们的实际能力。

在课堂上，常见的评估方式是先教授知识，再进行测试。然而，“应试教学”通常被认为是不可取的。因为如果采用应试教学，学生在测试中的表现可能会优于他们在从未见过的新问题上的表现。他们可能只记住了测试问题的具体答案，而错过了回答新问题所需的通用知识和技巧。

在机器学习场景中，我们的目标是在未见过的示例上表现良好，这种能力被称为泛化能力。如果我们在已经见过的数据上进行测试，会高估自己在新数据上的能力。因此，我们需要使用未见过的数据进行评估，即采用样本外评估或测试误差评估。

1.1 sklearn 的支持

幸运的是， sklearn 为我们提供了支持。我们可以使用 sklearn 中的 train_test_split 函数来避免应试教学。该函数将存储在 Python 变量 iris 中的数据集进行分割。这个数据集已经包含两个部分：特征和目标。新的分割将数据集分为两部分：
1. 用于学习和建立理解的训练数据。
2. 用于自我测试的测试数据。

我们只会从训练数据中学习，并仅在测试数据上进行评估，保证不偷看测试数据。以下是使用 train_test_split 函数的基本代码：

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。