PRML 阅读笔记(九)<3.1-3.2>

本文介绍了线性回归模型的概念,强调模型的线性是相对于参数而非输入变量。讨论了包括高斯和sigmoid函数在内的basis function,并通过最大似然和最小二乘法解释了参数估计。作者探讨了最小均方误差的几何意义,以及在线性模型中防止过拟合的正则化方法。最后,提出了偏差-方差分解,分析了模型复杂度与欠拟合、过拟合之间的平衡问题。
摘要由CSDN通过智能技术生成

3.Linear Models for Regression


    这章一开始作者就说明,"线性"回归指的是模型或预测函数是参数的线性函数,而不一定是输入变量的线性函数。对于模型中输入变量的的函数,可以是非线性函数,称之为basis function。


3.1 Linear Basis Function Models

      线性回归模型可以表示如下:

      

      其中w0的basis function被假设为常数1.

      在第一章的多项式曲线拟合中,只有一个输入变量x,并且模型中的basis function是,其实basis function的选择是很广泛的,书中介绍了Gaussian baisis function,logistic sigmoidal function等三种basis function。作者下面一段关于傅立叶级数和frequency,spatial的一段话我没理解,希望大牛给我一点提示。

      



3.1.1 Maximum likelihood and least square

       这一小节,作者主要还是对似然函数的前前后后做了一系列描述与讲解。

       首先,假设目标变量和预测函数与误差的关系如下:

       

        紧接着,像第一章提到那样,根据中心极限定理等,假设误差服从均值为0,precision为β的高斯分布,进而可以推导出目标变量服从的高斯分布:

        

         对上式取对数形式后,最后一项便是之前提到过的“最小均方”,关于最小均方作者题到了梯度下降。对于“最小均方”中的w求偏导并假设求偏导之后的式子为0,便可以得到所谓的normal equation。书中有normal equation的具体形式,就不过多赘述了。为什么有了normal equation,还要用梯度下降法求参数的解呢?首先遇到不可逆的矩阵,就无法用normal equation求出参数的解,其次当特征维度非常高的时候计算逆矩阵的成本太高。

         接下来作者论述了参数w0的含义和precision β的求解。关于w0,作者写到w0是补偿了目标变量均值和weighted sum of the averages of the basis function values之间的差值:

         

          虽然式子是清楚了,但是还是不明白这样的补偿有什么意义?

          

3.1.2 Geometry of least squares

           这一小节,作者对"最小均方"的几何含义做了相应解释。在N维空间中,t(即目标标量的向量组)是N维空间中的一个N维向量,假设模型复杂度M小于样本的总个数N,对于N维向量y,也是一个N维向量,但因为其是M个向量的线性组合,所以被局限在了一个M维的子空间中。"最小均方"的意义就是选取适当的w,使得出的yt的欧式距离最小,而真正的使"最小均方"为0的y即是t在M维子空间上的投影。

           

3.1.3 sequential learning

           即应用随机梯度下降,使用一个样本点更新所有参数值,适合于实时应用中(详见andrew ng斯坦福公开课)。


3.1.4 Regularized least squares

            这一节的大多数内容也在之前遇到过了,即加入了正则项的“最小均方”的相关知识。加入了正则化项以后,除非有数据的支持,否则会使参数取值趋近于0来简化模型,避免过拟合。相对与之前,对于正则化项进行一点小小扩展,有:

            

            当q=2时,即我们之前题到的正则化项。这样就把防止过拟合的任务从basis function的个数选择上转移到了正则化参数λ的选择上了。


3.1.5 Multiple outputs

            这一小节主要是讲输出变量t是多维的情况,不做介绍了,只是扩展了一下维度。




3.2 The Bias-Variance Decomposition

           在1.5.5节中,通过指定loss 函数L是“最小平方”,再对L的期望进行一点简单的推导,得出了最优y(x),即使得E[L]最小的y(x),记为h(x),如下:

           

            在1.5.5中,将h(x)代入“最小平方”L中,可以推导出如下E[L]:

            

             其中第二项来源于数据中的噪声,在样本数据确定以后是不可消减的,也就是E[L]理论上所能取到的最小值了。而第一项,明显是因为我们选择的y(x)和最优y(x)之间的误差引起的,所以接下来的努力方向就是使第一项尽量小。

              假设此时我们有多个样本集,大小都为N,且是从分布p(t,x)中独立产生的。在每个数据集上使用最小二乘对参数进行拟合,最后取各个数据集上拟合的结果进行合成。E(y(x;D))是y(x;D)的均值,将其插入“最小平方”中得到:

             

              然后再经过一步不知怎么就消去了交叉项的推导,得到了:

                       

                这样,之前的E[L]就变成了如下形式:

                

                我们的目标是最小化expected loss,其中noise是常数,而对于前两项的选取,称为bias and variance trade-off。对于flexible models,因为面对不同D时,y(x;D)的变化会比较大,所以variance比较高,而因为其对于样本的拟合比较好,所以平均后的效果更接近最优y(x),这时的模型存在过拟合风险。相反,对与比较rigid的模型,其面对不同D的时候y(x;D)的变化不大,所以variance就会比较小,而因为对数据的拟合度差一点,bias就会高一点,此时存在欠拟合的风险。所以,最好的y(x)是在bias和variance中找到一个平衡。这是我对这部分内容的一点理解,不对的请大家指出来。

                 后来作者又画图举了bias和variance平衡关系的例子,以及如何量化的计算bias和variance。

                 关于这一节,作者在讲bias和variance的时候要谈到多个数据集,而最后又说将数据集合并后进行建模可以有效避免过拟合。为什么讲内容的时候要分开,是因为讲的方便?不分开就不存在E(y(x;D))?还是因为什么原因?希望有大牛能指点一下,感激不尽。


美国圣母大学2017年新开课程《给科学家和工程师的统计学习》Statistical Computing for Scientists and Engineers 涵盖了统计学习中的几乎所有重要知识,包括《概率与统计、信息论、多维高斯分布、最大后验估计、贝叶斯统计、指数族分布、贝叶斯线性回归、蒙特卡洛方法、重要性采样、吉布斯采样、状态空间模型、EM算法、主成分分析、连续隐变量模型、核方法与高斯过程等》,并提供视频,PPT,课程作业及其参考答案与代码,还有大量参考学习资源,是不可多得的统计学习课程。和李航的统计学习方法配合学习效果更佳。 讲课课件和视频 1. 统计计算,概率与统计导论 2. 概率与统计导论(第一节延续) 3. 信息论,多维高斯分布,最大似然估计,罗宾斯 - 门罗算法 4. 基于罗宾斯 - 门罗的序列最大似然估计,条件与边缘高斯分布 5. 似然计算,最大后验估计,正则化最小二乘,线性高斯模型 6. 贝叶斯统计简介,指数族分布 7. 指数族分布和广义线性模型,多维高斯分布的贝叶斯推断 8. 先验与层次模型 9. 贝叶斯线性回归简介,模型比较与选型 10. 贝叶斯线性回归 11. 贝叶斯线性回归(续) 12. 贝叶斯回归和变量选择的实现 13. 蒙特卡洛方法简介,离散与连续分布采样 14. 逆采样,变换采样,接受-拒绝方法,分层/系统抽样 15. 重要性采样 16. 吉布斯采样 17. 马尔科夫蒙特卡洛MCMC算法 18. 状态空间模型与顺序重要性采样简介 19. 顺序重要性重采样 20. 顺序重要性重采样(续) 21. 序列蒙特卡洛与条件线性高斯模型 22. 逆跳跃马尔科夫链蒙特卡洛 23. 期望最大算法简介 24. 期望最大算法(续) 25. 主成分分析 26. 连续隐变量模型 27. 核方法与高斯过程
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值