nndl-复旦-神经网络与深度学习笔记第二章习题

第二章习题

参考资料

  1. https://www.cnblogs.com/douzujun/p/13285715.html
  2. https://github.com/nndl/solutions/issues

若有错误,请大家指正。

  • 习题 2-1 分析为什么平方损失函数不适用于分类问题.

    分类问题中的标签,是没有连续的概念的。每个标签之间的距离也是没有实际意义的,所以预测值 和 标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。 假设分类问题的类别是1,2,3 那么对于一个真实类别为2的样本X,模型的分类结果是 1 或 3,平方损失函数得到的结果都一样,显然不适合。

在这里插入图片描述

解 : y n 维 数 为 1 ∗ 1 ; w n 和 w n 维 数 为 n ∗ 1                                     解:y_n维数为1*1; w_n和w_n维数为n*1~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ yn11wnwnn1                                   

显 然 : w T x n = x n T w 显然:w^Tx_n=x_n^Tw wTxn=xnTw

故 : R ( w ) = 1 2 ∑ n = 1 N r n ( y n − x n T w ) 2 故:R(w)=\frac{1}{2}\sum_{n=1}^{N}{r_n(y_n-x_n^Tw)^2} R(w)=21n=1Nrn(ynxnTw)2

对 R ( w ) 求 导 并 让 其 为 0 , 得 : R ( w ) = ∑ n = 1 N − r n x n ( y n − x n T w ) = 0 对R(w)求导并让其为0,得:R(w)=\sum_{n=1}^{N}{-r_nx_n(y_n-x_n^Tw)}=0 R(w)0R(w)=n=1Nrnxn(ynxnTw)=0

即 : w ∗ = ( ∑ n = 1 N ( r n x n x n T ) − 1 ) ( ∑ n = 1 N r n x n y n ) 即: w^*=(\sum_{n=1}^{N}{(r_nx_nx_n^T)^{-1}}) (\sum_{n=1}^{N}{r_nx_ny_n}) w=(n=1N(rnxnxnT)1)(n=1Nrnxnyn)

r(n): 为每个样本都分配了权重,相当于对每个样本都设置了不同的学习率,即,理解成对每个样本重视程度不同
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

答 : 已 知 :                                                                               R ( w ) = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 + 1 2 λ ∣ ∣ w ∣ ∣ 2 要 求 : w ∗ = ( X X T + λ I ) − 1 X y 解 : R ( w ) = 1 2 ( y − X T w ) T ( y − X T w ) + 1 2 λ w T w 令 ∂ R ( w ) ∂ w = 0 , 得 : ∂ R ( w ) ∂ w = − X ( y − X T w ) + λ w = 0 解 得 : w ∗ = ( X X T + λ I ) − 1 X y 得 证 答:\quad 已知:~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ R(w)=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2}\lambda||w||^2\\ 要求:w^*=(XX^T+\lambda I)^{-1}Xy\\ 解:R(w)=\frac{1}{2}(y-X^Tw)^T(y-X^Tw)+\frac{1}{2}\lambda w^Tw\\ 令\frac{\partial R(w)}{\partial w}=0,\quad 得:\\ \frac{\partial R(w)}{\partial w}=-X(y-X^Tw)+\lambda w=0\quad 解得:\\ w^*=(XX^T+\lambda I)^{-1}Xy\\ 得证                                                                              R(w)=21yXTw2+21λw2w=(XXT+λI)1XyR(w)=21(yXTw)T(yXTw)+21λwTwwR(w)=0,wR(w)=X(yXTw)+λw=0:w=(XXT+λI)1Xy

在这里插入图片描述

答:
已 知 : log ⁡ p ( y ∣ X ; w , δ ) = ∑ n = 1 N log ⁡ N ( y n ; w T x n , δ 2 ) 注 : N ( y n ; w T x n , δ 2 ) = 1 2 π δ e x p ( − ( y n − w T x n ) 2 2 δ 2 ) 目 的 : w M L = ( X X T ) − 1 X y 令 ∂ log ⁡ p ( y ∣ X ; w , δ ) ∂ w = 0 , 化 简 得 : ∂ ( ∑ n = 1 N − ( y n − w T x n ) 2 2 β ) ∂ w = 0 ∂ 1 2 ∣ ∣ y − X T w ∣ ∣ 2 ∂ w = 0 − X ( y − X T w ) = 0 得 : w M L = ( X X T ) − 1 X y 已知:\log p(y|X;w,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(y_n;w^Tx_n,\delta^2)}\\ 注:\mathcal{N}(y_n;w^Tx_n,\delta^2)=\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y_n-w^Tx_n)^2}{2\delta^2})\\ 目的:w^ML=(XX^T)^{-1}Xy\\ 令\frac{\partial \log p(y|X;w,\delta)}{\partial w}=0,\quad 化简得:\\ \frac{\partial (\sum_{n=1}^{N}{\frac{-(y_n-w^Tx_n)^2}{2\beta}})}{\partial w}=0\\ \frac{\partial \frac{1}{2}||y-X^Tw||^2}{\partial w}=0\\ -X(y-X^Tw)=0\\ \quad得: \\ w^{ML}=(XX^T)^{-1}Xy\\ logp(yX;w,δ)=n=1NlogN(yn;wTxn,δ2)N(yn;wTxn,δ2)=2π δ1exp(2δ2(ynwTxn)2)wML=(XXT)1Xywlogp(yX;w,δ)=0,w(n=1N2β(ynwTxn)2)=0w21yXTw2=0X(yXTw)=0wML=(XXT)1Xy

在这里插入图片描述

1 ) x    服 从    N ( x n ; μ , δ 2 ) :                                       log ⁡ N ( x n ; μ , δ 2 ) = log ⁡ 1 2 π δ e x p ( − ( x n − μ ) 2 2 δ 2 ) = 1 2 l o g 1 2 π δ 2 − ( x n − μ ) 2 2 δ 2 似 然 函 数 :     log ⁡ p ( x ∣ μ , δ ) = ∑ n = 1 N log ⁡ N ( x n ; μ , δ 2 ) = N 2 l o g 1 2 π δ 2 − ∑ n = 1 N ( x n − μ ) 2 2 δ 2 令 ∂ log ⁡ p ( x ∣ μ , δ ) ∂ μ = 0 , 化 简 得 : ∑ n = 1 N x n δ 2 = N μ δ 2 故 :      μ M L = ∑ n = 1 N x n N 1)\quad x~~服从~~\mathcal{N}(x_n;\mu,\delta^2):~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \log \mathcal{N}(x_n;\mu,\delta^2)=\log\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x_n-\mu)^2}{2\delta^2})=\frac{1}{2}log\frac{1}{2\pi\delta^2}-\frac{(x_n-\mu)^2}{2\delta^2}\\ 似然函数:~~~\log p(x|\mu,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(x_n;\mu,\delta^2)}=\frac{N}{2}log\frac{1}{2\pi\delta^2}-\sum_{n=1}^{N}{\frac{(x_n-\mu)^2}{2\delta^2}}\\ 令\frac{\partial \log p(x|\mu,\delta)}{\partial \mu}=0,\quad 化简得:\\ \sum_{n=1}^{N}{\frac{x_n}{\delta^2}}=\frac{N\mu}{\delta^2}\\ 故:~~~~\mu^{ML}=\frac{\sum_{n=1}^{N}{x_n}}{N} 1)x    N(xn;μ,δ2):                                     logN(xn;μ,δ2)=log2π δ1exp(2δ2(xnμ)2)=21log2πδ212δ2(xnμ)2   logp(xμ,δ)=n=1NlogN(xn;μ,δ2)=2Nlog2πδ21n=1N2δ2(xnμ)2μlogp(xμ,δ)=0,n=1Nδ2xn=δ2Nμ    μML=Nn=1Nxn
2)
在这里插入图片描述
在这里插入图片描述
答:
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述答:

  • 高偏差原因:
    数据特征过少;
    模型复杂度太低;
    正则化系数λ太大;
  • 高方差原因:
    数据样例过少;
    模型复杂度过高;
    正则化系数λ太小;
    没有使用交叉验证;

【注】:单纯增加训练集数目一般不会减小高偏差,但是会减小高方差。

在这里插入图片描述
在这里插入图片描述答:未方便起见,将 f D ( x ) 、 f ∗ ( x ) f_D(x)、f^*(x) fD(x)f(x)简化为 f D 、 f ∗ f_D、f^* fDf
E D [ ( f D − E D [ f D ] + E D [ f D ] − f ∗ ) 2 ] = E D [ ( f D − E D [ f D ] ) 2 ] + 2 E D [ ( f D − E d [ f D ] ) ( E D [ f D ] − f ∗ ) ] + E D [ ( E D [ f D ] − f ∗ ) 2 ] = E D [ ( f D − E D [ f D ] ) 2 ] + 2 E D [ f D E D [ f D ] − f D f ∗ − E D 2 [ f D ] + E D [ f D ] f ∗ ] + E D [ E D 2 [ f D ] − 2 E D [ f D ] f ∗ + ( f ∗ ) 2 ] = E D [ ( f D − E D [ f D ] ) 2 ] + 2 E D 2 [ f D ] − 2 E D [ f D f ∗ ] − 2 E D 2 [ f D ] + 2 E D [ f D ] E D [ f ∗ ] + E D 2 [ f D ] − 2 E D [ f D ] E D [ f ∗ ] + E D [ ( f ∗ ) 2 ] = E D [ ( f D − E D [ f D ] ) 2 ] + E D 2 [ f D ] − 2 E D [ f D f ∗ ] + E [ ( f ∗ ) 2 ] E_D[(f_D-E_D[f_D]+E_D[f_D]-f^*)^2]\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[(f_D-E_d[f_D])(E_D[f_D]-f^*)]+E_D[(E_D[f_D]-f^*)^2] \\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[f_DE_D[f_D]-f_Df^*-E_D^2[f_D]+E_D[f_D]f^*]+E_D[E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D^2[f_D]-2E_D[f_Df^*]-2E_D^2[f_D]+2E_D[f_D]E_D[f^*]+E_D^2[f_D]-2E_D[f_D]E_D[f^*]+E_D[(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_Df^*]+E[(f^*)^2]\quad\quad\quad\quad ED[(fDED[fD]+ED[fD]f)2]=ED[(fDED[fD])2]+2ED[(fDEd[fD])(ED[fD]f)]+ED[(ED[fD]f)2]=ED[(fDED[fD])2]+2ED[fDED[fD]fDfED2[fD]+ED[fD]f]+ED[ED2[fD]2ED[fD]f+(f)2]=ED[(fDED[fD])2]+2ED2[fD]2ED[fDf]2ED2[fD]+2ED[fD]ED[f]+ED2[fD]2ED[fD]ED[f]+ED[(f)2]=ED[(fDED[fD])2]+ED2[fD]2ED[fDf]+E[(f)2]
注意:对于单个样本来说, f ∗ f^* f为常数,所以 2 E D [ f D f ∗ ] = 2 E D [ f D ] f ∗ 2E_D[f_Df^*]=2E_D[f_D]f^* 2ED[fDf]=2ED[fD]f, E D [ ( f ∗ ) 2 ] = ( f ∗ ) 2 E_D[(f^*)^2]=(f^*)^2 ED[(f)2]=(f)2
所以,上述等式化为:
= E D [ ( f D − E D [ f D ] ) 2 ] + E D 2 [ f D ] − 2 E D [ f D ] f ∗ + ( f ∗ ) 2 = E D [ ( f D − E D [ f D ] ) 2 ] + ( E D [ f D [ x ] − f ∗ ) 2 =E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+(E_D[f_D[x]-f^*)^2\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad =ED[(fDED[fD])2]+ED2[fD]2ED[fD]f+(f)2=ED[(fDED[fD])2]+(ED[fD[x]f)2
得证。

在这里插入图片描述

  • 一元:

    “我”、“打了”、“张三”
    x 1 = [ 1 , 1 , 1 ] x 2 = [ 1 , 1 , 1 ] x_1=[1, 1, 1]\\ x_2=[1,1,1] x1=[1,1,1]x2=[1,1,1]

  • 二元:

    “#我”、“我打了”、“打了张三 ”、“张三打了”、“打了我“
    x 1 = [ 1 , 1 , 1 , 1 , 0 ] x 2 = [ 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0]\\ x_2=[0,0,0,1,1] x1=[1,1,1,1,0]x2=[0,0,0,1,1]

  • 三元:

    ”##我“、”#我打了“、”我打了张三“、”打了张三#“、”张三打了我“、”打了我#“
    x 1 = [ 1 , 1 , 1 , 1 , 0 , 0 ] x 2 = [ 0 , 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0,0] x_2=[0,0,0,0,1,1] x1=[1,1,1,1,0,0]x2=[0,0,0,0,1,1]
    词袋模型将文本看作词的集合, 不考虑词序信息, 不能精确地表示文本信息

在这里插入图片描述

真实类别\预测类别123
1110
2021
3112
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CHH3213

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值