《统计学习方法》-李航第一章

个人的简单理解,仅作参考!

1.1统计学习的三要素:

方法=模型+策略+算法

  • 得到一个有限的训练数据集合
  • 确定包含所有可能模型的假设空间(也就是所谓的学习模型集合
  • 确定模型的选择准则(也就是确定学习的策略,明确按照什么样的准则去选择模型)
  • 实现求解最优模型的算法(学习的算法,也就是如何达到最优的准则)
  • 通过学习方法选择最优的模型(此时就是我们所需的模型)
  • 利用学习的最优模型对新数据分析和预测
1.1.1 模型

条件概率表示的模型:概率模型P(y|x)
决策函数表示的模型:非概率模型f(x)

1.1.2策略

损失函数:度量模型一次预测的好坏

  • 01损失
  • 平方损失函数
  • 绝地值损失函数
  • 对数损失函数(对数似然损失函数)

风险函数(期望损失/期望风险):平均意义下模型预测好坏,求损失函数的期望(关于联合分布的期望损失)
经验风险(经验损失):训练数据集的平均损失
根据大数定律,当N趋于吴无穷时,经验风险趋于期望风险,但是现实中经验风险估计期望风险并不理想,需要对经验风险进行矫正,所以涉及到两个基本策略:
经验风险最小化结构风险最小化
经验风险最小化 会产生过拟合现象;结构风险最小化等价于正则化,与模型复杂度有关,结构风险小的模型往往对训练数据以及未知的数据有较好预测。
最终,监督学习变为经验风险或结构风险函数最优化问题。

1.1.3算法

统计学习问题,变为了最优问题。需要考虑用什么样的计算方法求解最优模型、

1.2监督学习

  • 输入空间:输入(出)的所有可能取值的集合,他们可以是不同的空间,但通常输出空间远小于输入空间
  • 特征空间:每一个具体的输入都是一个实例,通常由特征向量表示。这是特征向量存在的空间称为特征空间,(模型实际上都是定义在特征空间的)
  • 输入输出为连续变量的预测问题称为回归问题 ,离散变量称为分类为题,变量序列的预测问题称为标注问题
  • X和Y具有联合概率分布的假设是监督学习关于数据的基本假设

1.3模型评估与选择

训练误差
测试误差

1.4正则化和交叉验证

  • 正则化:是结构化风险最小化策略的实现。选择经验风险与模型复杂度同时较小的模型 符合奥拉姆剃刀法则
  • 交叉验证:训练集,验证集,测试集。在学习到不同复杂度的模型中,选择验证集中有最小预测误差的模型。
    简单交叉验证;S折交叉验证;留一交叉验证。

1.5泛化能力

泛化误差:对未知数预测的误差,就是学习到的模型的期望风险
泛化误差(概率)上界限:能够用来分析学习方法的泛化能力。并具有以下性质:
1.他是样本容量的函数,通常样本数量增加,泛化上街就会趋于0;
2.他是假设空间的函数,假设空间的同容量越大,模型就越难学,上界就越大

1.6生成模型和判别模型

监督学习方法分为:生成方法(生成模型)和判别方法(判别模型)
生成模型:由数据先学习到联合概率分布,并求出条件概率分布作为预测的模型。他给出了X产生Y的生成关系

  • 典型生成模型有:朴素贝叶斯,隐马尔可夫模型

  • 特点:收敛速度快,存在隐变量任可以永生成学习,而判别学习不可。
    判别模型:由数据直接学习决策函数或者是条件概率分布作为预测的模型。仅关心给定的x,应该预测什么样的Y

  • 典型判别模型有:K近邻、感知机、决策树、logist回归。最大熵模型、支持向量机、提升方法和条件随机场。

  • 特点:直接面对预测,学习准确率更高。可以对数据进行各种程度上的抽象、定义特征并使用特征、也可称为简化学习问题。

1.7分类问题

TP正正
FN正负
FP负正
TN负负
精确率:所有预测的正类中,预测正确的概率
召回率:所有真实正类被预测正确的概率。
F1是精确率和召回率的调和均值

1.8标注问题

输入是观测序列,输出是一个标记序列或者状态序列。
标注常用的统计学习方法有:隐马尔科夫模型,条件随机场

1.9回归问题

  • 等价于函数拟合:选择一条函数曲线使得很好地拟合已知的数据,并很好地预测未知数据
  • 按照输入变量分为:一元回归和多元回归
  • 按照输入变量和输出变量之间的关系分为:线性回归和非线性回归
  • 最常用的损失函数是平方损失,所以回归问题可以由著名的最小二乘求解
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值