统计学习基础知识

1、学习三要素:模型、策略、算法
模型:即所要学习问题的条件概率分布或决策函数,即想要解决什么样的问题以及对该问题的统计学抽象,加上一定的假设。
策略:学习最优模型的优化方法,一般有两种:经验风险最小化和结构风险最小化。这两个方法是可以同时使用的,一般来说,也都是同时使用的。
经验风险最小化,可以简单理解为对损失函数期望的最小化估计。期望风险就是泛化误差,即该模型对未知数据的预测能力。极大似然估计就是一种模型为条件概率模型,损失函数为对数损失函数时的经验风险最小化估计。
结构风险最小化,等价于正则,是一种为了避免过拟合而提出的这种策略,目标是选择经验风险和模型复杂度同时小的模型。最大后验概率估计是一种极大似然估计的特例,增加了先验概率作为正则项来表示模型复杂度。符合Occam原理:在所有的可以选择的模型中,能够很好的解释已知数据并且十分简单的模型才是最好的模型。
算法:具体实现。
2、避免过拟合的方法:
正则项
减少特征维度
Dropout(神经网络)
增加数据集
3、正则项
比较常用的两种正则项为 L1 (1)和 L2 (2)范数,一种说法表示 L1 范数服从Laplacian分布,而 L2 服从Gaussian分布,但是并不理解。通俗来说,其目的均是使模型复杂度最低,即参数尽可能稀疏。 L1 是一个绝对稀疏的正则项, L2 是一个相对稀疏的正则项,是为了解决 L1 不可微问题而提出的一个近似估计。这里关于 L1 范数的稀疏性可以从如下推导得出。

L1=||x|| (1)
L2=||x||22 (2)

假设最优化的损失函数为Loss,参数为x,正则为 L1 正则,x的梯度下降更新过程如下所示
x:=Lossxα x0
x:=Lossx+α x<0

对于大于0的参数,正则项的导数为正使得参数减小,相反,对于小于0的参数,则会获得一个增加的梯度,从而使得目标参数趋近于0,即得到稀疏。

参考文献:
1.《统计学习方法》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值