8、机器学习分类入门:训练、测试与简单分类器

机器学习分类入门:训练、测试与简单分类器

1. 训练与测试:避免应试教学

在机器学习中,我们使用数据的方式至关重要。以学习课程为例,我们不仅希望取得好成绩,更希望能将所学知识应用于现实世界。成绩只是衡量我们在现实中表现的替代指标,但它可能无法准确反映我们的实际能力。

在课堂上,常见的评估方式是先教授知识,再进行测试。然而,“应试教学”通常被认为是不可取的。因为如果采用应试教学,学生在测试中的表现可能会优于他们在从未见过的新问题上的表现。他们可能只记住了测试问题的具体答案,而错过了回答新问题所需的通用知识和技巧。

在机器学习场景中,我们的目标是在未见过的示例上表现良好,这种能力被称为泛化能力。如果我们在已经见过的数据上进行测试,会高估自己在新数据上的能力。因此,我们需要使用未见过的数据进行评估,即采用样本外评估或测试误差评估。

1.1 sklearn 的支持

幸运的是, sklearn 为我们提供了支持。我们可以使用 sklearn 中的 train_test_split 函数来避免应试教学。该函数将存储在 Python 变量 iris 中的数据集进行分割。这个数据集已经包含两个部分:特征和目标。新的分割将数据集分为两部分:
1. 用于学习和建立理解的训练数据。
2. 用于自我测试的测试数据。

我们只会从训练数据中学习,并仅在测试数据上进行评估,保证不偷看测试数据。以下是使用 train_test_split 函数的基本代码:

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值