chapter1 统计学习方法概论
统计学习三要素
model 模型
假设空间 决策函数的集合 f={f|Y=f(X)}
参数空间 /theta
strategy 策略:
1)如何选择模型?考量:
i.损失函数
e.g.如果是Square loss,那就是最小二乘了;如果是Hinge Loss,那就是著名的SVM了;如果是exp-Loss,那就是牛逼的 Boosting了;如果是log-Loss,那就是Logistic Regression了;还有等等。不同的loss函数,具有不同的拟合特性
ii.风险函数: 损失函数的期望
学习的目标是选择期望风险最小的模型,而一般用经验风险(样本集的平均损失)来估计期望风险
2)监督学习常用的两种策略:
i.经验风险最小化:选择经验风险最小的模型
e.g.模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率分布
ii.结构风险最小化:引入正则化项/惩罚项,防止过拟合
e.g.模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计
惩罚项一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。
e.g.模型参数向量的 L0 范数、 L1 范数、 L2 范数、迹范数、Frobenius范数,核范数,etc。
algorithm
求解最优化问题的算法
e.g.梯度下降法,牛顿法
模型评估
泛化能力i.e.预测能力
训练误差
测试误差
过拟合vs欠拟合
监督学习
监督学习方法可分为
- 生成方法 generative approach
主要学习联合概率分布P(X,Y)
e.g.朴素贝叶斯,隐马尔科夫
优点:学习收敛速度更快,样本容量增加时速度更快,适用于存在隐变量的情况
- 判别方法 discriminative approach
直接得出决策函数Y = f(X)或P(Y|X)
e.g. k-means, 感知机,决策树,逻辑回归,最大熵,支持向量机,提升方法,条件随机场
优点:准确率更高,便于数据的抽象和特征提取
监督学习包括
- 分类问题(Y离散)
二类分类问题常用评价指标是准确率precision和召回率recall,以及综合二者的F1 score - 标注问题
对输入序列进行标记
常用方法:隐马尔科夫,条件随机场 - 回归问题
等价于函数拟合,常用损失函数为平方损失函数,此时可用最小二乘法求解
统计学review
大数定理
在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定值
切比雪夫定理的一个特殊情况、辛钦定理和伯努利大数定律都概括了这一现象都称为大数定律极大似然概率
使用情况:模型已定,参数未知
f(x1,x2,...,xn|Θ)
假设所有采样独立同分布,f为模型, θ 为模型参数
定义似然函数:
L(Θ|x1,x2,...,xn)=f(