《统计学习方法》学习笔记

本文详细探讨了统计学习的基本概念、分类方法(按模型、技巧划分)、关键要素(模型、策略、算法),以及模型评估与选择(训练误差、测试误差、过拟合、正则化、交叉验证)。重点比较了概率模型与非概率模型,判别模型与生成模型,并介绍了泛化能力和降低过拟合的策略。
摘要由CSDN通过智能技术生成

参考: 【机器学习】判别模型vs生成模型、概率模型vs非概率模型

1.1统计学习

1.统计学习的特点

“如果一个系统能够通过执行某个过程改进它的性能,这就是学习” -----Herbert A. Simon

(1)建立在计算机及其网络上的
(2)研究对象是数据
(3)目的是对数据进行预测与分析
(4)以方法为中心,构建模型->应用模型
(5)多学科的交叉,包括概率论,统计学,信息论,计算理论,最优化理论等多个领域。

2.统计学习的对象

统计学习会将同类数据具有一定的统计规律性作为基本假设。
例如一堆看似杂乱无章的数据但是假设其具有某种分布概率

3.统计学习的目的

考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,并且还需尽可能的提高学习效率。

4.统计学习的方法

主要包括监督学习,无监督学习和强化学习,均属于基于数据构建概率模型从而对数据进行预测于分析。
主要包含如下步骤:
(1)得到有限的训练数据集
(2)确定学习模型的集合,通俗说是研究问题的所有可能
(3)学习的策略,即训练模型的策略
(4)学习的算法
(5)通过学习算法选择最优模型
(6)利用最优模型对新数据进行预测

1.2统计学习的分类

1.2.1 基本分类

  1. 监督学习
    即有标签,标注数据的学习,这类学习主要的学习输入到输出的映射规律,通过给定数据 (x,y) (其中x是特征,y是对应的映射),大量数据的学习使模型可以识别这种映射关系。

    下面介绍监督学习里面的一些基本概念:
    1. 输入空间,特征空间,输出空间
    输入空间和输出空间就是输入与输出所有可能的取值,既可以是有限的元素集合,也可以是整个欧式空间
    而每个具体的输入是一个实例,通常由特征空间表示
    2. 假设空间
    在监督学习中模型是用来表示由一个输入到输出关系的映射,学习的目的就是为了找到最好的模型可以表示或者近似这种映射,模型属于由输入空间到输出空间映射的集合(可以理解成为一个函数,输入是x,映射是y),假设空间就是学习的范围。

  2. 无监督学习
    从无标注数据中学习预测模型的机器问题,无监督学习的本质是学习数据中的统计规律和潜在结构。

  3. 强化学习
    指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题,通俗化来说就是能够与外界进行交流,并且可以不断的调整自己,强化学习的本质是学习最优序贯决策
    主要包含:
    1. 智能体(Agent):在强化学习中,智能体是做出决策的实体,它可以是一个软件程序、一个机器人,或者是任何可以进行决策的系统。
    2.环境(Environment):智能体所处的环境是它可以进行探索和学习的空间。环境根据智能体的动作反馈状态信息和奖励给智能体。
    3.状态(State):状态是对环境当前情况的描述。智能体根据状态来决定它的下一步动作。
    4.动作(Action):在给定的状态下,智能体可以执行的操作被称为动作。智能体的目标是通过选择最佳的动作序列来最大化长期奖励。
    5.奖励(Reward):当智能体执行动作后,环境会根据动作的结果给予智能体一个即时的反馈——奖励。奖励是一个数值,表示动作的好坏。智能体的目标是最大化长期累积奖励。
    6.策略(Policy):策略是智能体决策的指南,它定义了在给定状态下应该选择哪个动作。最优策略是使得长期累积奖励最大化的策略。
    7.价值函数(Value Function):价值函数是对在特定策略下从某状态开始的预期长期奖励的估计。它帮助智能体评估状态的好坏,进而决定最佳动作。
    强化学习模型

1.2.2 按模型分类

  1. 概率模型vs非概率模型,判别模型vs生成模型

     在监督学习中概率模型是生成式模型,非概率模型属于判别模型,一般概率模型以量化预测的不确定性,而非概率模型通常不考虑不确定性。
     
     概率模型适合于需要估计不确定性、进行概率推断的场合,而非概率模型则可能在那些需要快速、直接决策的应用中更为常见。
     
     概率模型与非概率模型的区别在于模型的内在结构。概率模型可以表示为联合概率分布的形式,其中的变量表示输入,输出,隐变量甚至参数,而非概率模型不一定存在这种联合概率分布。
    

    判别模型和生成模型的主要区别在于它们对数据的学习方式: 判别模型学习直接从输入到输出的映射,而生成模型学习数据的整体分布。
    概率模型和非概率模型的区别在于是否使用概率论来建模和理解数据,概率模型提供关于预测不确定性的信息,而非概率模型则通常不提供这种信息。

  2. 线性模型与非线性模型
    如果函数y=f(x),z=g(x)是线性函数,那该模型就是线性模型,否则为非线性模型。

  3. 参数化模型和非参数化模型
    参数化模型 一般假设参数的维度固定,模型可以由有限的维度参数完全刻画;非参数化模型假设参数的维度不固定或者无穷大,随着训练的数据量增加而不断增大

1.2.3 按技巧分

  1. 贝叶斯学习
    其主要想法是计算给定数据条件下的模型的条件概率,即后验概率,并且应用这个原理进行模型的估计。
  2. 核方法
    即使用核函数核学习非线性模型的一种机器学习的方法,核方法可以把一些线性模型扩展到非线性模型的学习。

1.3统计学习方法三要素

方法=模型+算法+策略

1.3.1 模型

统计学习首要考虑的问题就是学习什么样的模型,在监督学习中模型就是所要学习的条件概率或者决策函数,模型的假设空间包含所有可能的条件概率和决策函数。

1.3.2 策略

有了模型的假设空间,统计学习接着需要考虑安装什么样的准则学习或者选择最优模型。
首先引入一下概念:

  1. 损失函数和风险函数(loss function和cost function)
    监督学习里,在假设空间中对于选取的模型f,以及给定输入x和由f(x)输出的相应的y,通过该模型预测的函数值于真实值 Y 可能一致,也可能不一致,因此利用loss function和cost function来度量预测错误的程度。
    损失函数是度量模型一次预测的好坏,风趣函数是度量平均意义下的模型预测的好坏。
    常用的损失函数:

     	(1)0-1损失函数
     	(2)平方损失函数
     	(3)绝对损失函数
     	(4)对数损失函数
    

2.经验风险最小化和结构风险最小化

经验风险最小化(ERM)
经验风险最小化是一种在机器学习模型训练中寻找最佳模型参数的方法,目标是最小化在训练数据上的损失。经验风险(Empirical Risk)是模型预测错误的度量,通常通过计算模型在训练数据集上的平均损失来估计。ERM策略的核心思想是通过优化模型在已知数据上的表现来间接优化模型在整个数据分布上的表现。

优点:
直接优化训练数据上的表现,使模型能够很好地拟合给定的数据集。

缺点:
容易过拟合,尤其是在数据量较小或模型复杂度较高时。过拟合指模型在训练数据上表现很好,但在未见过的数据上表现差。

结构风险最小化(SRM)
结构风险最小化是对ERM方法的扩展,旨在通过同时考虑模型复杂度和训练数据上的损失来优化模型。结构风险(Structural Risk)包括两部分:经验风险和与模型复杂度相关的正则项。SRM策略通过在优化过程中引入一个正则化项(如L1或L2范数)来控制模型的复杂度,以防止过拟合。这样,SRM不仅尝试使模型在训练数据上的表现最优,也试图保持模型的泛化能力。

优点:
通过考虑模型复杂度,帮助防止过拟合,提高模型在未见过的数据上的泛化能力。

缺点:
需要选择合适的正则化项和正则化强度,这可能需要通过交叉验证等方法进行多次尝试。

它们的根本区别在于对模型训练过程中的损失最小化和模型复杂度之间平衡的不同处理方式。SRM提供了一种通过考虑模型复杂度来优化泛化能力的框架,而ERM则集中于优化模型在训练数据上的性能。

1.3.3 算法

指学习模型的具体计算方法。

1.4 模型的评估与模型选择

1.4.1 训练误差与测试误差

  1. 训练误差的大小,对于给定的问题是不是一个容易学习的问题是有意义的,本质上不重要。
  2. 测试误差反应了学习方法对于未知测试数据集的预测能力,是很重要的概念,通常学习方法对于未知数据的预测能力称为泛化能力。

1.4.2 过拟合和模型选择

如果一味追求提高对训练数据的预测能力,所选模型的复杂度往往会比真模型更高(选择对的,不选复杂的),这种现象称为过拟合,这种模型能够对已知数据预测很好,但是对于新数据预测很差。

解决方法:

 1. 获取更多的训练数据
更多的数据可以帮助模型更好地学习数据的真实分布,而不是仅仅记住训练集的特性。然而,获取更多数据有时是不可行或成本太高的。

2. 减少模型复杂度
使用更简单的模型或减少模型中的参数数量可以防止过拟合。简单的模型可能不容易捕捉到训练数据中的噪声和过度特定的模式。,但是模型参数过于简单也会导致欠拟合。

3. 使用正则化
正则化(如L1、L2正则化)通过向模型的损失函数添加一个惩罚项来限制模型的复杂度,这可以促进模型的泛化能力。L1正则化可以产生稀疏权重,从而进行特征选择;L2正则化可以防止权重变得过大,导致过拟合。

4. 使用交叉验证
交叉验证可以帮助评估模型在未见过的数据上的性能。通过在不同的训练和验证数据集上训练和评估模型,可以选择泛化能力最强的模型和参数。

5. 早停法(Early Stopping)
在训练过程中,如果在验证集上的性能连续多次迭代没有改善,可以提前停止训练。这可以防止模型在训练数据上过度拟合。

6. 使用集成方法
集成方法(如随机森林、梯度提升树和堆叠模型)通过结合多个模型来提高预测的稳定性和准确性,可以减少过拟合的风险。

7. 数据增强
对于某些类型的数据(如图像、文本和音频数据),可以通过数据增强技术(例如旋转、缩放图像或对文本进行同义词替换)来人为增加数据的多样性,这有助于模型学习更一般的特征而不是训练集中的噪声。

随着模型复杂度增加,训练误差会减小,直至趋于0,但是测试误差会随着模型复杂度,先减小后增大,而最终目的是使测试误差达到最小。
模型误差随着复杂度增加的变化

1.5 正则化与交叉验证

1.5.1 正则化

模型选择的典型方法就是正则化,正则化也是结构化风险最小化策略的实现,是在经验风险上加一个正则化项或罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大,正则化的作用是选择经验风险和模型复杂度同时较小的模型。

1.5.2 交叉验证

另一种方法是交叉验证,交叉验证的基本思想是重复的使用数据,把给定的数据进行切分,将切分的数据组合为训练集和测试集,在此基础上反复训练,测试及模型的选择。

1. 简单交叉验证(Simple Cross-validation)
过程:

  • 随机将数据集分割为两部分:一个训练集和一个测试集,比如70%的数据用于训练,30%用于测试。

  • 使用训练集训练模型。

  • 在测试集上评估模型性能。
    优点: 操作简单,计算成本较低。

    缺点: 结果可能受到数据分割方式的影响较大,尤其是在数据量不大的情况下。

  1. K折交叉验证(K-Fold Cross-validation)
    过程:

    • 将数据集均匀分割成K个子集(或“折”)。

    • 对于每一个子集,将该子集作为测试集,其余的K-1个子集合并作为训练集,训练并评估模型。

    • 重复这一过程K次,每次选择不同的子集作为测试集。

    • 计算K次评估结果的平均值作为模型的最终性能指标。
      优点: 相比简单交叉验证,K折交叉验证能更全面地利用数据,结果更加稳定可靠。

      缺点: 计算成本随K值增加而增加,尤其是当K值较大或数据集较大时。

  2. 留一交叉验证(Leave-One-Out Cross-validation,LOOCV)
    过程:

    • 如果数据集中有N个样本,留一交叉验证就是K折交叉验证的一个特例,其中K=N。

    • 在每一次验证中,选择一个样本作为测试集,其余的N-1个样本作为训练集。

    • 重复这一过程N次,每次选择不同的样本作为测试集。

    • 计算N次评估结果的平均值作为模型的最终性能指标。
      优点: 每一次训练都几乎利用了所有的数据,使得评估结果非常准确。

      缺点:计算成本非常高,尤其是当数据集较大时几乎不可行。

1.6 泛化能力

1.6.1 泛化误差

学习方法的泛化能力是指该方法学习到的模型对未知数据的预测能力
泛化误差反应了学习方法的泛化能力

  • 泛化误差和测试误差的区别?
    1. 概念上的区别: 泛化误差是一个理论概念,代表了模型在所有可能的新数据上的平均表现;而测试误差是基于特定测试数据集的实际表现。
    2. 计算方法: 泛化误差无法直接计算,通常需要通过理论分析或依据模型在测试集上的表现进行估算;测试误差可以直接通过测试数据集计算得出。
    3. 反映的内容: 泛化误差反映了模型对整体新数据的适应能力;测试误差反映了模型对特定测试数据集的适应能力。

1.6.2 泛化误差的上界

即泛化误差的最坏情况的估计

泛化误差的上界通常涉及几个关键因素:

  • 模型复杂度:模型复杂度越高(例如,参数更多),其泛化误差的上界通常越高。
  • 训练数据量:使用的训练数据量越多,泛化误差的上界通常越低。
  • 置信度:上界的计算通常涉及一个置信度参数,表示上界估计的可靠性。
  • 33
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
李航的《统计学习方法》是一本经典的统计学习教材,其中涵盖了统计学习的基本理论和方法。该书主要介绍了统计学习的三要素:模型、策略和算法。引用提到,训练集用来训练模型,验证集用来选择模型,测试集用于对学习方法的评估。这些三要素是统计学习方法的基础。引用进一步解释了统计学习的目标,即通过构建概率统计模型对数据进行准确的预测与分析,并提高学习效率。引用提到了一种常用的统计学习方法,即提升(boosting),它通过改变训练样本的权重,学习多个弱分类器,并将它们线性组合成一个强分类器,以提高分类的性能。 总结起来,李航的《统计学习方法笔记主要围绕统计学习的基本理论和方法展开,介绍了统计学习的三要素、目标和提升等常用方法。这本书对于学习统计学习的人来说是一本非常有价值的参考资料。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [统计学习方法——李航 笔记](https://blog.csdn.net/qq_45383347/article/details/110482540)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [李航《统计学习方法学习笔记](https://blog.csdn.net/liuzuoping/article/details/98840923)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值