神经网络(二)回归与线性模型

一、线性回归

        需要通过训练集x^{(n)}y^{(n)}求解x,y之间的映射关系y=f(x,\theta )

         1.线性回归

                ①模型

                        f(x;\omega ,b)=\omega^Tx+b

                        增广权重向量&增广特征向量:在x和\omega上添加一个b,可将模型中原有的b消除。

                        模型转换为: f(x;\omega ,b)=\omega^Tx+b ->f(x;\omega)=\omega^Tx

                 ②训练集D上的经验风险

                        R(\omega)=\sum_{n=1}^{N}L(y^{(n)},f(x^{(n)};\omega))=\frac{1}{2}\sum_{n=1}^{N}(y^{(n)}-\omega^Tx^{(n)})^2=\frac{1}{2}||y-X^T\omega||^2

                                X矩阵:其中每行为一个样本

                                Y向量:列向量,每一列为一个结果

                        \left| \begin{array} {ccc} x_1^{(1)},x_1^{(2)},...x_1^{(n)}\\ x_2^{(1)},x_2^{(2)},...x_2^{(n)}\\ ...\\ \end{array} \right|        \left| \begin{array} {ccc} y^1\\ y^2\\ ... \end{array} \right|        x^Tw=\left| \begin{array} {ccc} w^Tx_1^{(1)},w^Tx_1^{(2)},...w^Tx_1^{(n)}\\ w^Tx_2^{(1)},w^Tx_2^{(2)},...w^Tx_2^{(n)}\\ ...\\ \end{array} \right|

                ③经验风险最小化

                        \frac{\partial}{\partial w} R(w)=0        以此公式求解w

                推导\frac{\partial}{\partial w} R(w)=\frac{\partial \frac{1}{2}||y-x^Tw||^2 }{\partial w}=\frac{1}{2}*-x*2(y-x^Tw)=0

                        ->-xy+xx^T=0

                        ->xx^Tw=xy

                        ->w=(xx^T)^{-1}xy         条件:(xx^T)^{(-1))}必须存在

                                若(xx^T)^{(-1))}不存在(特征之间存在共线性),可以采用以下两种方法求解

                                ①SGD(随机数下降)  ②降维  

                结构风险R(w)=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2}\lambda ||w||^2 ,其中\frac{1}{2}\lambda ||w||^2被称为正则化项\lambda为正则化参数。

                        使其最小化w^*=(XX^T+\lambda I)^{-1}Xy

!!!Attention矩阵微积分

         2.多项式回归

                ①模型

                        f(x,w)=w_0+w_1x+w_2x^2+...+w_mx^m        多项式曲线拟合

                ②损失函数

                        R(w)=\frac{1}{2}\sum_{n=1}^{N}(y^{(n)}-w^T\phi (x^{(n)}))^2

                ③经验风险最小化

                        求解过程与线性回归类似

                ④选择合适的多项式次数

                         控制过拟合:正则化

                                惩罚大的系数R(w)=\frac{1}{2}\sum_{n=1}^N(y^{(n)}-w^T\phi (x^{(n)}))^2+\frac{\lambda}{2}w^Tw

                                其中\frac{\lambda}{2}w^Tw正则化项\lambda正则化系数

                         控制过拟合:增加训练样本数量

        3.从概率视角来看线性回归

                 ①似然函数

                        参数w固定时,描述随机变量x的分布情况,称p(x;w)为概率

                        已知随机变量x时,不同参数w对其分布的影响,称p(x;w)为似然

                        线性回归中的似然函数p(y|X;w,\sigma )=\prod_{n=1}^{N}p(y^{(n)}|x^{(n)};w,\sigma)

                                                                                       =\prod_{n=1}^{N}N(y^{(n)};w^Tx^{(n)},\sigma)

                ②最大似然估计

                        求一组参数w,使p(y|X;w,\sigma )取最大值(求导)

                ​​​​​​​        ​​​​​​​        w^{ML}=(XX^T)^{-1}Xy

                ③贝叶斯学习

                        将参数w也视为随机变量;给定一组数据X,求参数w的分布p(w|X),也称后验分布

                        贝叶斯公式p(y|x)=\frac{p(x|y)p(y)}{p(x)}

                        先验:p(w|x)\propto p(x|w)p(w)        后验 正比于  似然 X 先验

                         最大后验估计w^{MAP}=arg max p(y|X,w;\sigma)p(w;v)

                                                              =-\frac{1}{2\sigma}||y-X^T||^2-\frac{1}{2v^2}w^Tw        正则化系数\lambda=\frac{\sigma^2}{v^2}

                ⑤四种准则

平方误差经验风险最小化(XX^T)^{-1}Xy
结构风险最小化(XX^T+\lambda I)^{-1}Xy
概率最大似然估计(XX^T)^{-1}Xy
最大后验估计(XX^T+\lambda I)^{-1}Xy

         4.模型选择

                        模型越复杂,训练错误越低;

                        但不能以训练错误高低来选择模型;

                        选择模型时,测试集不可见。

                ①引入验证集

                可将训练集分为两部分训练集验证集在验证集上挑选一个错误最小的模型

                解决数据稀疏问题(样本过少):交叉验证,将训练集分为S组,每次使用S-1组作为训练集,剩下一组作验证集;取验证集平均性能最好的一组

                 ②使用准则

                        赤池信息量准则、贝叶斯信息准则

                ③偏差-方差分解

                        平衡模型复杂度期望风险

                        期望风险R(f)=E_{(x,y)~p_r(x,y)}[(y-f(x))^2]=E_{x~p(x)}[E_{y~p(y|x)}[(y-f(x))^2]]

                        最优模型f^*(x)=E_{y~p_r(y|x)}[y]

                        期望风险可以分解为:R(f)=E_{(x,y)~p_y(x,y)}[(y-f*(x)-f(x))^2]

                                                        =E_{x~p_r(x)}[(f(x)-f^*(x))^2]+\varepsilon

                                \varepsilon =E_{(x,y~p_r(x,y))}[(y-f^*(x))^2] 通常由样本分布噪声引起,无法通过优化模型消除。

                        目的:模型f(x)与最优模型f^*(x)尽可能贴近

                         由偏差与方差进行模型选择

                         随着模型复杂度↑,方差↑,偏差↓

        5.常用定理

                ①没有免费午餐定理

                        不存在某种算法对所有问题都有效

                ②丑小鸭定理

                        丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大(未给定具体条件的情况下)

                ③奥卡姆剃刀定理

                        若无必要,勿增实体

                ④归纳偏置

                        做出的假设称为归纳偏置,在贝叶斯学习中称为先验

                ⑤PAC学习

                        由大数定律,训练集趋于无穷大时,泛化误差趋近于0

                        \lim_{|D|-> \infty}R(f)-R^{emp}(f)=0

                        P((R(f)-R^{emp}_D(f))<\epsilon )\geqslant 1-\delta​​​​​​​

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值