模式识别课堂笔记极简

推倒均方差误差求导公式

 

模型:y = b + w_{1}\cdot x_{1} + w_{2}\cdot x_{1}^{2}

该模型依旧是线性模型:将x_{1}^{2}项看做是新的一个特征项即可,当然,模型完成的是y关于x_{1}的非线性映射。

 

过拟合解决方法之一:正则项

L\left ( W , b \right ) = \frac{1}{2} \sum \left ( y^{\left ( i \right )} - \left ( W^TX^{\left ( i \right )}-b \right )\right )^2 +\lambda \left ( \left \| W \right \| \right )

因为y = W ^TX+b

所以y + \Delta y= W ^T(X+\Delta X)+b = y + W ^T \Delta X

所以增量的影响方式通过x和w一起影响预测结果。正则项因此是有效的。

 

事实上整个模型的误差来源分为 bias and variance两个因素。

\hat{\mu } = \frac{1}{m} \sum_{i=1}^{m}x^{(i)}

 \hat{\mu } 是\mu的无偏估计

证明如下(中心极限定理):

E[\hat{\mu }] = \frac{1}{m} \sum_{i=1}^{m} E[x^{(i)}]=\frac{1}{m} m\mu = \mu

同理可以证明方差\hat{\sigma ^2} = \frac{1}{m} \sum_{i=1}^{m} (x^{(i)}-\hat{\mu})^2是有偏估计

证明最后一步是: E(\hat{\sigma ^2}) = \frac{m-1}{m}\sigma ^2

所以很容易得到\hat{\sigma^2 } = \frac{1}{m-1} \sum_{i=1}^{m} (x^{(i)}-\hat{\mu})^2是方差的无偏估计

同理得到标准差公式:\hat{\sigma } = \sqrt{\frac{1}{m-1} \sum_{i=1}^{m} (x^{(i)}-\hat{\mu})^2}是标准无偏估计

 

训练误差太大的解决方案:

1. 增加特征维数

2. 增加模型复杂度

对于2 模型复杂度的调节:

a. 与数据量有关,数据量越大可以设计得越复杂

b. 正则化系数调整

 

梯度下降法:

参考:https://www.cnblogs.com/neopenx/p/4768388.html

对于学习率的动态策略:

0. SGD :\omega _i^{(t)} \leftarrow \omega_i^{(t-1)} - \eta g^{(t)}

1.Winallia Grident Descent: \omega _i^{(t)} \leftarrow \omega_i^{(t-1)} - \frac{\eta}{\sqrt{t+1}}g^{(t)} 则: \eta ^{(t)} = \frac{\eta}{\sqrt{t+1}}

2. AdaGrad 在1 的基础上改进:\omega _i^{(t)} \leftarrow \omega_i^{(t-1)} - \frac{\eta}{\sqrt{ \sum_{\tau =1}^{t} (g^{(\tau)}) ^2 }}g^{(t)}

 

借鉴了L2 Regularizer 正则化

细心可以发现该项分子分母存在趋势冲突,这是为何?

训练前期,梯度较小,使得Regularizer项很大,放大梯度。

训练后期,梯度较大,使得Regularizer项很小,缩小梯度。

 

对于模型的选择可以使用K折验证法:

1. 整个数据分为:训练集、测试集。备选模型有n个。

2. 将训练集继续分为k份、轮流方式决定n组组合:k-1份为训练集,1份验证集

3. 针对每一个模型进行k-1次训练验证,计算平均指标

4. 选择指标最好的模型作为最优模型,并使用全部训练集重新训练。

5. 测试集测试

注:选择模型的时候不需要测试集参与选择,因为测试集也无法保障自己的分布更合理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值