李航《统计学习方法》第一章 机器学习三要素

本文概述了统计学习的三大要素:模型、策略和算法,详细讲解了模型选择依据、经验风险最小化与结构风险最小化的策略,以及L0、L1和L2范数在正则化中的作用。同时,介绍了监督学习中的生成和判别方法,并对监督学习的分类和回归问题进行了讨论。
摘要由CSDN通过智能技术生成

chapter1 统计学习方法概论

统计学习三要素

model 模型

假设空间 决策函数的集合 f={f|Y=f(X)}
参数空间 /theta

strategy 策略:

1)如何选择模型?考量:
i.损失函数
e.g.如果是Square loss,那就是最小二乘了;如果是Hinge Loss,那就是著名的SVM了;如果是exp-Loss,那就是牛逼的 Boosting了;如果是log-Loss,那就是Logistic Regression了;还有等等。不同的loss函数,具有不同的拟合特性
ii.风险函数: 损失函数的期望
学习的目标是选择期望风险最小的模型,而一般用经验风险(样本集的平均损失)来估计期望风险

2)监督学习常用的两种策略:
i.经验风险最小化:选择经验风险最小的模型
e.g.模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率分布
ii.结构风险最小化:引入正则化项/惩罚项,防止过拟合
e.g.模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计

惩罚项一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。
e.g.模型参数向量的 L0 范数、 L1 范数、 L2 范数、迹范数、Frobenius范数,核范数,etc。

algorithm

求解最优化问题的算法
e.g.梯度下降法,牛顿法

模型评估

泛化能力i.e.预测能力
训练误差
测试误差
过拟合vs欠拟合

监督学习

监督学习方法可分为
- 生成方法 generative approach
主要学习联合概率分布P(X,Y)
e.g.朴素贝叶斯,隐马尔科夫
优点:学习收敛速度更快,样本容量增加时速度更快,适用于存在隐变量的情况
- 判别方法 discriminative approach
直接得出决策函数Y = f(X)或P(Y|X)
e.g. k-means, 感知机,决策树,逻辑回归,最大熵,支持向量机,提升方法,条件随机场
优点:准确率更高,便于数据的抽象和特征提取

监督学习包括

  • 分类问题(Y离散)
    二类分类问题常用评价指标是准确率precision和召回率recall,以及综合二者的F1 score
  • 标注问题
    对输入序列进行标记
    常用方法:隐马尔科夫,条件随机场
  • 回归问题
    等价于函数拟合,常用损失函数为平方损失函数,此时可用最小二乘法求解

统计学review

  • 大数定理
    在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定值
    切比雪夫定理的一个特殊情况、辛钦定理和伯努利大数定律都概括了这一现象都称为大数定律

  • 极大似然概率
    使用情况:模型已定,参数未知
    f(x1,x2,...,xn|Θ)
    假设所有采样独立同分布,f为模型, θ 为模型参数
    定义似然函数:
    L(Θ|x1,x2,...,xn)=f(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值