读书笔记——李航《统计学习方法》CH01

1.1 统计学习

统计学习方法的三要素:模型、策略和算法;

目标:从假设空间中选取最优模型;

方法=模型+策略+算法;

模型:所要学习的条件概率分布或决策函数;

          非概率模型:由决策函数表示的;

           概率模型:由条件概率表示的;

假设空间:定义为决策函数的集合/条件概率的集合;

策略

1.2 监督学习

  • 回归问题:输入变量与输出变量均为连续变量的预测问题
  • 分类问题:输出变量为有限个离散变量的预测问题
  • 标注问题:输入输出变量均为变量序列的预测问题
  • 监督学习:由学习系统和预测系统完成
  • 损失函数:度量模型一次预测的好坏
  • 风险函数(期望损失):度量平均意义下模型预测的好坏
  • 经验风险(经验损失)
  •         
  • 监督学习两个基本策略:经验风险最小化(ERM)和结构风险最小化(SRM);经验或结构风险函数是最优化的目标函数;
  • SRM
  •         (PDF25)

监督学习变为经验风险或结构风险函数的最优化问题;经验或结构风险函数是最优化的目标函数。

1.3.3 算法

指学习模型的具体计算方法;

1.4 模型评估与模型选择

  • training error:
  •         
  • test error:
  •         
  • error rate: 当损失函数是0-1损失时,测试误差就变成了常见的测试数据集上的误差率;测试误差小的方法具有更好的预测能力;
  •         
  • accuracy:
  •         
  • error rate+accuracy=1

1.4.2 过拟合与模型选择

模型选择旨在避免过拟合并提高模型的预测能力,不仅包括对已知数据的预测能力,还有对未知数据的预测能力;

两种常用方法:正则化与交叉验证;

1.5 正则化与交叉验证

  • 正则化是SRM策略的实现,是最小化结构风险(结构风险即在经验风险上加一个正则化项或罚项);

    一般形式:

    

  • 交叉验证:随机地将数据集切分成三部分:训练集、验证集和测试集;训练集用来训练模型、验证集用于模型地选择,测试集用于最终对学习方法地评估;

               简单交叉验证

               S折交叉验证

               留一交叉验证:在数据缺乏的情况下使用;

1.6 泛化能力

  • 泛化误差:是所学习到的模型的期望风险;
  • 泛化误差上界:(1)是样本容量的函数,当样本容量增加时,泛化上界趋于0;

                              (2)是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大;

        (证明见PDF32)

1.7 生成模型与判别模型

      生成模型:典型的生成模型有朴素贝叶斯法和隐马尔可夫模型;生成方法的学习收敛速度更快;

         

       判别模型:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型;判别方法关心的是对给定的输入X,应该预测什么样的输出Y;典型的判别模型有:k近邻法、感知机、决策树、logistic回归、最大熵模型、SVM、提升方法和条件随机场等。可以直接学习P(Y|X)或f(x),可以简化学习问题。

监督学习的问题:分类问题、标注问题、回归问题;详情见下:

1.8 分类问题

  • 二类分类问题的评价指标:精确率(precision)与召回率(recall);

    

1.9 标注问题

  • 目的:学习一个模型,使它能够对观测序列给出标记序列作为预测;
  • 常用统计方法:隐马尔可夫模型、条件随机场;



1.10 回归问题

  • 回归模型:表示从输入变量到输出变量之间映射的函数;
  • 损失函数:平方损失函数;由最小二乘法求解;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值