【无标题】

最新推荐文章于 2024-01-18 23:25:36 发布

Olivia LI.

最新推荐文章于 2024-01-18 23:25:36 发布

阅读量1.3k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_42548062/article/details/121959193

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

绪论
1.机器学习
1.计算机从数据中产生“模型”的算法，即学习算法。

2.监督学习

分类：预测的是离散值。

回归：预测的是连续值。

无监督学习

聚类：对数据分组

【困难点】

与训练集一致的假设集合为“版本空间”。按想得的结果分为正例、反例，保留正例、删除反例留下来的集合即为版本空间。

2.模型精度评估

1.经验误差与过拟合

2.误差——实际预测输出与样本的真实值输出之间的差异。

  学习器在训练集上的误差为训练误差或经验误差，在新样本上的误差成为泛化误差。

3.过拟合与欠拟合

 过拟合-过配：学到了不一般的特性当做泛化特性。（机器学习的主要障碍）

欠拟合-欠配：一般的特性没学全就得出了泛化特性。

4.评估方法

留出法：将样本总体按比例分为训练集和测试集，二者互斥。通常采用分层抽样的方法保留数据分布的一致性。缺点是评估结果因训练集与测试集的范围划分存在误差不准确。常见做法是将大约2/3~4/5的样本用于训练，剩余样本用本测试。

交叉验证法：将数据集划分为k个子集，k-1个子集的并集作为训练集，剩余的一个子集作为测试集，进行k次训练和测试，最终返回k个测试结果的均值。（也成为k折交叉验证）k=m时，即样本中的每一个数据单独作为一个集合的时候进行的交叉验证法为留一法，此法更为精确，但计算量大。

自助法：进行重复、有放回的采样，每次从D中抽一个放到D’中，再将其放回D中，重复样本个数次，D中有一部分结果不会出现在D’中，得到永远不被采样的概率是0.368，即可把36.8%的不在D’中出现的部分当做测试集，剩余D’作为训练集。此法在数据集较小，测试集和训练集不好区分时有用对集成学习有利，但会引入估计偏差。

Olivia LI.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【无标题】

绪论1.机器学习1.计算机从数据中产生“模型”的算法，即学习算法。2.监督学习分类：预测的是离散值。回归：预测的是连续值。无监督学习聚类：对数据分组【困难点】与训练集一致的假设集合为“版本空间”。按想得的结果分为正例、反例，保留正例、删除反例留下来的集合即为版本空间。2.模型精度评估1.经验误差与过拟合2.误差——实际预测输出与样本的真实值输出之间的差异。学习器在训练集上的误差为训练误差或经验误差，在新样本上的误差成为泛化误差。3.过拟合与欠拟合过拟合-过配：学到了不一
复制链接

扫一扫