【机器学习】机器学习入门笔记

一根大白菜

已于 2022-10-08 10:32:57 修改

阅读量204

点赞数

分类专栏：机器学习文章标签：机器学习

于 2022-10-07 19:17:08 首次发布

本文链接：https://blog.csdn.net/ooooollll111/article/details/126915164

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

前言
一、机器学习是什么？
二、基础知识

前言

机器学习入门。

一、机器学习是什么？

它致力于研究如何通过计算的手段，利用经验来改善和提高系统自身的性能。计算机通过对数据进行“学习”，产生模型，然后便可以利用学习到的模型对之后类似的数据进行判断或者预测。例如：此时有一堆带有“标签”的西瓜在我们面前，有“好瓜”和“坏瓜”，我们对这堆西瓜进行“学习”，学习到“好瓜”和“坏瓜”的特征，产生相应的判断西瓜好坏的模型，如果这个时候再来一个西瓜，可以利用这个模型来判断它是“好瓜”还是“坏瓜”。

二、基础知识

1.基本术语

训练/学习（training/learning）:从数据中学到模型的过程
训练集（training set）：训练样本组成的集合
假设（hypothesis）：学得模型对应了关于数据的某种潜在的规律
真相/真实（ground truth，GT)：潜在的规律自身
标签（label）：关于示例结果的信息
样例（example）：拥有了标记信息的示例
分类（classification）：预测的是离散值的学习任务，例如“好瓜”“坏瓜”
回归（regression）：预测的是连续值的学习任务，例如西瓜熟度0.95
测试（testing）：学习模型后，对其进行预测的过程
泛化generalization能力：学得模型适用于新样本的能力

根据训练集数据是否拥有标记信息，我们可以把学习大致归为两类：监督学习（supervised learning）和无监督学习（unsupervised learning），分类和回归属于监督学习，聚类则是属于无监督学习。

2.模型评估与选择

1.经验误差与过拟合

错误率（error rate）：分类错误样本/样本总数*100%
精度（accuracy）：1-错误率
误差（error）：学习器再实际预测输出样本与样本真实输出之间的差异
训练误差（training error）：模型在训练数据集上计算得到的误差
泛化误差（generalization error）：模型应用在同样从原始样本的分布中抽取的无限多数据样本时，模型误差的期望
过拟合（overfitting）：把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，也可称为“学习得太好了”
欠拟合（underfitting）：对训练样本得一般性质尚未学好

2.模型选择

在机器学习中，我们通常在评估几个候选模型后选择最终的模型。这个过程叫做模型选择。有时，需要进行比较的模型在本质上是完全不同的（比如，决策树与线性模型）。又有时，我们需要比较不同的超参数设置下的同一类模型。为了确定候选模型中的最佳模型，我们通常会使用验证集。
原则上，在我们确定所有的超参数之前，我们不希望用到测试集。如果我们在模型选择过程中使用测试数据，可能会有过拟合测试数据的风险，那就麻烦大了。如果我们过拟合了训练数据，还可以在测试数据上的评估来判断过拟合。常见做法是将我们的数据分成三份，除了训练和测试数据集之外，还增加一个验证数据集（validation dataset），也叫验证集（validation set）。

3.评估方法

1.留出法（hold-out）：将数据集划分为两个互斥得集合，一个用作训练集S，一个用作测试集T
2.交叉验证法（cross validation）：将数据集划分D为k个大小相似得互斥子集，k-1个子集的并集作为训练集，第k个子集作为测试集，最终返回k个测试结果的均值
3.自助法（bootstrapping）：随机从数据集D中挑选一个样本产生D’，再放回D中，重复执行M次，在数据集较小，难以区分数据集/测试集时常用