机器学习(西瓜书)&南瓜书学习笔记

第一章

什么是机器学习

机器学习是人工智能的一个分支,它的核心是让计算机系统从数据中学习并改进其表现,而不需要进行明确的编程。在这个过程中,计算机会识别出数据中的模式,并使用这些模式进行预测或决策,而无需人为地进行规则的设定。

机器学习中的基本术语

机器学习中的基本术语是方便我们理解整本西瓜书的关键

数据集

在西瓜书中,他给我们举了一个西瓜的例子
西瓜书上的例子
这里的一批西瓜的数据就是数据集

数据属性

在上面的西瓜数据集中,我们可以看到,每个西瓜都有三个特征,分别是色泽,根蒂,敲声这三个特征,在机器学习中,我们把研究的目标对象的特征称之为属性,这三个特征就是西瓜的属性

训练数据

训练过程中使用的数据就是训练数据。他一般是数据集中的子集,我们训练过程中会将数据集分为训练集,验证集,测试集(具体区别下面会讲到),这里训练数据特指训练集数据

训练样本

训练数据中的每一条数据都称为一个数据样本。如:(色泽=青绿;根蒂=蜷缩;声=浊响)这个就是一个训练样本

训练算法

在机器学习中,学习任务可以分为两大类,一是监督学习,二是无监督学习。

  • 监督学习有线性回归,逻辑回归,决策树,KNN等算法
  • 无监督学习有聚类算法等

假设空间

假设空间可以类似为概率论中的样本空间,就是在整个推理过程中可能出现的样本情况。
这里以书上的决策树为例:
在这里插入图片描述
这个就是整个推理过程中的假设空间了

归纳偏好

在机器学习中,归纳偏好(也称为“偏好假设”或“偏好偏差”)指的是学习算法在学习过程中对某种类型的假设或模型的倾向。换句话说,当存在多个假设或模型都可以解释已知的训练数据时,机器学习算法会倾向于选择符合其归纳偏好的那一个。

例如,假设我们正在进行一个二元分类任务,训练数据可以被一个复杂的非线性模型或一个简单的线性模型来解释。在这种情况下,如果我们使用一个倾向于选择简单模型的学习算法(例如线性回归或逻辑回归),那么它的归纳偏好就是简单性。这就是说,即使复杂的非线性模型在训练数据上的表现更好,这种学习算法也会倾向于选择简单的线性模型。

归纳偏好在机器学习中起着非常重要的作用,因为在许多情况下,训练数据通常不能完全确定唯一的假设或模型。而归纳偏好则为学习算法提供了一种指导,帮助其在众多可能的假设或模型中做出选择。它的选择反映了算法设计者对问题的理解和他们的假设,对模型的泛化能力有着重要的影响。

对于书中的1.2的NFT公式理解
在这里插入图片描述
首先根据南瓜书的解释,第二个等号到第三个等号的过渡:
在这里插入图片描述
由上面可知,真实值的目标函数成立的情况就是1/2*2^|x|
后面第三个等号到第四个等号:
∑P(h|X,a)中的就是将所有通过算法a和数据X求出h的值的概率的累积和,这个就是1

这个公式告诉了我们在所有问题出现的机会相同时,算法的选择不会影响总误差

第二章

经验误差和过拟合

经验误差是指模型在训练集上的误差。理想情况下,我们希望模型在训练集上的表现能尽可能好。然而,如果模型对训练数据的拟合过于完美,就可能出现过拟合的情况,这就意味着模型可能在训练集上表现得很好,但在未见过的数据上表现较差。
在这里插入图片描述

评估方法

机器学习模型的常见评估方法包括留出法(hold-out)、交叉验证(cross-validation)和自助法(bootstrap)。选择哪种评估方法取决于你的具体需求和数据集的大小。

留出法

留出法是最简单的评估方法。这种方法将原始数据分为训练集和测试集两部分。训练集用于训练模型,而测试集用于评估模型的性能。这种方法的主要优点是它简单且计算成本较低。但是,它的结果可能会因数据的划分方式不同而有所不同。

交叉验证

交叉验证又称k折交叉验证,它是一种更强大的评估方法。它将数据分为k个子集,然后进行k次训练和测试。在每次迭代中,它选择一个子集作为测试集,其余的子集作为训练集。这样,我们可以得到k个模型和他们的评估结果,然后取他们的平均值作为最终的评估结果。交叉验证的主要优点是它的评估结果更稳定和可靠。但是,它的计算成本比留出法要高。

在这里插入图片描述

自助法

自助法是一种特殊的评估方法,主要用于小数据集。在每次迭代中,它从原始数据集中有放回地抽取样本形成训练集,未被抽取的样本形成测试集。自助法的主要优点是它可以有效地利用小数据集。但是,由于抽样是有放回的,所以测试集可能并不是全新的样本,评估结果可能会有所偏高。

每种评估方法都有其适用的情况和优点,你应根据自己的需求和数据集的大小来选择最适合你的评估方法。

性能度量

性能度量是用于评估模型预测结果质量的标准。选择合适的性能度量是十分重要的,因为它直接影响模型的训练和选择。常见的性能度量有准确率(accuracy)、精确率(precision)、召回率(recall)、F1 分数、ROC AUC 等。

准确率

准确率(Accuracy)是最直观的评估指标,它等于正确预测的样本数量除以总样本数量。

精确率和召回率

精确率(Precision)是预测为正的样本中实际为正的比例,而召回率(Recall)是实际为正的样本中被预测为正的比例。精确率和召回率是一对矛盾的指标,通常需要根据实际问题来进行取舍。

F1 分数

F1 分数是精确率和召回率的调和平均数,可以在一定程度上平衡这两者。

ROC AUC

ROC AUC是在所有可能的分类阈值下,模型的真阳性率(TPR)和假阳性率(FPR)的权衡。AUC 值为 1.0 的分类器是完美分类器,0.5 的分类器则没有任何分类能力。

对数损失

对数损失是一种用于评估分类模型预测概率的性能度量。它更关注模型预测的概率值,而不仅仅是类别标签。

均方误差和平均绝对误差

对于回归问题,常用的性能度量有MSE(均方误差)和MAE(平均绝对误差)。MSE 更关注大的错误,而 MAE 对所有错误都同等看待。

选择适合的性能度量标准取决于具体的问题和业务需求。有些时候,我们可能需要自定义性能度量来更好地满足需求。

比较检验

比较检验是一种统计方法,用于确定两种或更多的方法是否存在显著差异。在机器学习中,比较检验通常用于比较两种或更多的模型或算法的性能。

偏差和方差

偏差是模型预测的平均误差,反映了模型的预测与真实值的一致性。方差是模型预测的波动性或散布程度,反映了模型对训练集的敏感性。偏差和方差通常存在一个权衡关系,即偏差减小,方差增大;偏差增大,方差减小。这就是所谓的偏差-方差权衡(bias-variance tradeoff)。

方差公式:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值