机器学习笔记01——基本概念

最新推荐文章于 2024-09-12 21:05:39 发布

死磕的斯坦张

最新推荐文章于 2024-09-12 21:05:39 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/david2000999/article/details/124326722

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

目录

分类
误差性能
过拟合和欠拟合
交叉验证

分类

根据输入输出类型的不同，预测问题可以分为以下三类。

分类问题：输出变量为有限个离散变量，当个数为 2 时即为最简单的二分类问题；

回归问题：输入变量和输出变量均为连续变量；

标注问题：输入变量和输出变量均为变量序列。

按照任务训练特点分类：

监督学习：基于已知类别的训练数据进行学习；
无监督学习：基于未知类别的训练数据进行学习；
半监督学习：同时使用已知类别和未知类别的训练数据进行学习。

误差性能

在机器学习中，误差被定义为学习器的实际预测输出与样本真实输出之间的差异。

在分类问题中，常用的误差函数是错误率，即分类错误的样本占全部样本的比例。

误差可以进一步分为训练误差和测试误差两类。
训练误差指的是学习器在训练数据集上的误差，也称经验误差(老数据)；

测试误差指的是学习器在新样本上的误差，也称泛化误差（新数据）。

过拟合和欠拟合

如果接触的外国人较少，从没见过双眼皮的韩国人，思维中就难免出现“单眼皮都是韩国人”的错误定式，这就是典型的过拟合现象，把训练数据的局部特征错当做整体的特征。过拟合出现的原因通常是学习时模型包含的参数过多，从而导致训练误差较低但测试误差较高。

与过拟合对应的是欠拟合。如果说造成过拟合的原因是学习能力太强，造成欠拟合的原因就是学习能力太弱，以致于训练数据的基本性质都没能学到。如果学习器的能力不足，甚至会把黑猩猩的图像误认为人，这就是欠拟合的后果。

交叉验证

为了对测试误差做出更加精确的估计，一种广泛使用的方法是交叉验证。交叉验证思想在于重复利用有限的训练样本，通过将数据切分成若干子集，让不同的子集分别组成训练集与测试集，并在此基础上反复进行训练、测试和模型选择，达到最优效果。

如果将训练数据集分成 10 个子集 D1−10 进行交叉验证，则需要对每个模型进行 10 轮训练，其中第 1 轮使用的训练集为 D2~D10 这 9 个子集，训练出的学习器在子集 D1 上进行测试；

第 2 轮使用的训练集为 D1 和 D3~D10 这 9 个子集，训练出的学习器在子集 D2 上进行测试。依此类推，当模型在 10 个子集全部完成测试后，其性能就是 10 次测试结果的均值。不同模型中平均测试误差最小的模型也就是最优模型。

死磕的斯坦张

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。