《神经网络与深度学习》第二章习题

第二章 机器学习概述

习题 2-1 分析为什么平方损失函数不适用于分类问题。

平方损失函数为:
L ( y , f ( x ; θ ) ) = 1 2 ( y − f ( x ; θ ) ) 2 (2.14) \mathcal{L}\left(y,f(\boldsymbol{x};\theta)\right)=\frac{1}{2}\left(y-f(\boldsymbol{x};\theta)\right)^2 \tag{2.14} L(y,f(x;θ))=21(yf(x;θ))2(2.14)
对于分类问题,例如如果一个分类问题有标签 [ 1 , 2 , 3 ] [1, 2, 3] [1,2,3],分别代表了 [ r e d , g r e e n , y e l l o w ] [red, green, yellow] [red,green,yellow],假如真实分类是 1, 而被分类到 2 和 3 错误程度应该是一样的, 但是平方损失函数的损失却不相同。

习题 2-2 在线性回归中,如果我们给每个样本 ( x ( n ) , y ( n ) ) (\boldsymbol{x}^{(n)}, y^{(n)}) (x(n),y(n)) 赋予一个权重 r ( n ) r^{(n)} r(n),经验风险函数为

R ( w ) = 1 2 ∑ n = 1 N r ( n ) ( y ( n ) − w T x ( n ) ) 2 (2.91) \mathcal{R}(\boldsymbol{w}) = \frac{1}{2}\sum_{n=1}^{N}r^{(n)}(y^{(n)}-\boldsymbol{w}^\mathrm{T}\boldsymbol{x}^{(n)})^2 \tag{2.91} R(w)=21n=1Nr(n)(y(n)wTx(n))2(2.91)

计算其最优参数 w ∗ \boldsymbol{w}^* w,并分析权重 r ( n ) r^{(n)} r(n) 的作用。

∂ ∂ w R ( w ) = 1 2 ∑ n = 1 N r ( n ) ∂ ∥ y − X T w ∥ 2 ∂ w = 0 w ∗ = ∑ n = 1 N r ( n ) ( X X T ) − 1 X y \begin{aligned} \frac{\partial}{\partial{\boldsymbol{w}}}\mathcal{R}(\boldsymbol{w}) & = \frac{1}{2}\sum_{n=1}^{N}r^{(n)}\frac{\partial\left\|\boldsymbol{y}-\boldsymbol{X}^\mathrm{T}\boldsymbol{w}\right\|^2}{\partial\boldsymbol{w}} = 0 \\ \boldsymbol{w}^{*} & = \sum_{n=1}^{N} r^{(n)}\left(\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}}\right)^{-1} \boldsymbol{X} \boldsymbol{y} \end{aligned} wR(w)w=21n=1Nr(n)wyXTw2=0=n=1Nr(n)(XXT)1Xy

习题 2-3 证明在线性回归中,如果样本数量 N N N 小于特征数量 D + 1 D+1 D+1,则 X X T \boldsymbol{X}\boldsymbol{X}^{\mathrm{T}} XXT 的秩最大为 N N N

矩阵 X = [ x ( 1 ) , x ( 2 ) , . . . , x ( n ) ] \boldsymbol{X}=[\boldsymbol{x}^{(1)},\boldsymbol{x}^{(2)},...,\boldsymbol{x}^{(n)}] X=[x(1),x(2),...,x(n)],样本数 N N N 比特征数量 D + 1 D+1 D+1 还小,故 X \boldsymbol{X} X 的秩肯定不会超过 N N N,而 r a n k ( X X T ) = r a n k ( X ) rank(\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}})=rank(\boldsymbol{X}) rank(XXT)=rank(X) 故其秩最大也只能是 N N N

这相当于线性方程组的未知数个数大于方程个数,是不存在唯一的非零解的。

习题 2-4 在线性回归中,验证岭回归的解为结构风险最小化准则下的最小二乘法估计,见公式(2.44)。

∂ R ( w ) ∂ w = 1 2 ∂ ∥ y − X T w ∥ 2 + λ ∥ w ∥ 2 ∂ w = − X ( y − X T w ) + λ w \begin{aligned} \frac{\partial \mathcal{R}(\boldsymbol{w})}{\partial \boldsymbol{w}} &=\frac{1}{2} \frac{\partial\left\|\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right\|^{2}+\lambda\|\boldsymbol{w}\|^{2}}{\partial \boldsymbol{w}} \\ &=-\boldsymbol{X}\left(\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right)+\lambda \boldsymbol{w} \end{aligned} wR(w)=21wyXTw2+λw2=X(yXTw)+λw

∂ ∂ w R ( w ) = 0 \frac{\partial}{\partial{\boldsymbol{w}}}\mathcal{R}(\boldsymbol{w})=0 wR(w)=0 可得:

− X Y + X X T w + λ w = 0 ( X X T + λ I ) w = X Y -\boldsymbol{X} \boldsymbol{Y}+\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}+\lambda \boldsymbol{w}=0\\ \left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}+\lambda \boldsymbol{I}\right) \boldsymbol{w}=\boldsymbol{X} \boldsymbol{Y} XY+XXTw+λw=0(XXT+λI)w=XY

即: w ∗ = ( X X T + λ I ) − 1 X y \boldsymbol{w}^{*}=\left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}+\lambda \boldsymbol{I}\right)^{-1} \boldsymbol{X} \boldsymbol{y} w=(XXT+λI)1Xy

习题 2-5 在线性回归中,若假设标签 y ∼ N ( w T x , β ) y\sim\mathcal{N}(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x},\beta) yN(wTx,β),并用最大似然估计来优化参数,验证最优参数为公式(2.52)的解。


log ⁡ p ( y ∣ X ; w , β ) = ∑ n = 1 N log ⁡ N ( y ( n ) ; w T x ( n ) , β ) = ∑ n = 1 N log ⁡ ( 1 2 π β exp ⁡ ( − ( y ( n ) − w T x ) 2 2 β ) ) = ∑ n = 1 N log ⁡ 1 2 π β + ∑ n = 1 N log ⁡ ( exp ⁡ ( − ( y ( n ) − w T x ) 2 2 β ) ) \begin{aligned} \log p(\boldsymbol{y}|\boldsymbol{X} ; \boldsymbol{w}, \beta) & = \sum_{n=1}^{N} \log \mathcal{N}\left(y^{(n)} ; \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}^{(n)}, \beta\right) \\ & = \sum_{n=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi \beta}} \exp \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)\right) \\ & = \sum_{n=1}^{N} \log \frac{1}{\sqrt{2 \pi \beta}}+\sum_{n=1}^{N} \log \left(\exp \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)\right) \end{aligned} logp(yX;w,β)=n=1NlogN(y(n);wTx(n),β)=n=1Nlog(2πβ 1exp(2β(y(n)wTx)2))=n=1Nlog2πβ 1+n=1Nlog(exp(2β(y(n)wTx)2))
对于等式的第一部分只是一个常数,其对 w \boldsymbol{w} w 求导为零,所以只看后面的部分。

后面部分可以化简为
∑ n = 1 N ( − ( y ( n ) − w T x ) 2 2 β ) \sum_{n=1}^{N} \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right) n=1N(2β(y(n)wTx)2)

:在计算机或者说人工智能中,代码上的 log ⁡ \log log 通常都是以 e e e 为底的,即代表 ln ⁡ \ln ln

所以,把分母的 2 β 2\beta 2β 提出去,最大似然函数对 w \boldsymbol{w} w 的求导函数又变成了 − 1 2 β ∥ y − X T w ∥ 2 -\frac{1}{2\beta}\left\|\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right\|^2 2β1yXTw2,参考最小二乘法可以知道,最优参数为
w M L = ( X X T ) − 1 X y (2.52) \boldsymbol{w}^{ML}=\left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}\right)^{-1} \boldsymbol{X} \boldsymbol{y} \tag{2.52} wML=(XXT)1Xy(2.52)

习题 2-6 假设有 N N N 个样本 x ( 1 ) , x ( 2 ) , . . . , x ( N ) x^{(1)},x^{(2)},...,x^{(N)} x(1),x(2),...,x(N) 服从正态分布 N ( μ , σ 2 ) \mathcal{N}(\mu,\sigma^2) N(μ,σ2),其中 μ \mu μ 未知。1)使用最大似然估计来求解最优参数 μ M L \mu^{ML} μML;2)若参数 μ \mu μ 为随机变量,并服从正态分布 N ( μ 0 , σ 0 2 ) \mathcal{N}(\mu_0,\sigma_0^2) N(μ0,σ02),使用最大后验估计来求解最优参数 μ M A P \mu^{MAP} μMAP

(1)问

习题 2-5 基本一样,就是变量表示变了
log ⁡ p ( x ∣ μ ; σ 2 ) = ∑ n = 1 N log ⁡ N ( x ( n ) ; μ , σ 2 ) = ∑ n = 1 N log ⁡ ( 1 2 π σ exp ⁡ ( − ( x ( n ) − μ ) 2 2 σ 2 ) ) = ∑ n = 1 N log ⁡ 1 2 π σ + ∑ n = 1 N ( − ( x ( n ) − μ ) 2 2 σ 2 ) \begin{aligned} \log p(\boldsymbol{x}|\mu ; \sigma^2) & = \sum_{n=1}^{N} \log \mathcal{N}\left(x^{(n)} ; \mu, \sigma^2\right) \\ & = \sum_{n=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi}\sigma} \exp \left(-\frac{\left(x^{(n)}-\mu\right)^{2}}{2 \sigma^2}\right)\right) \\ & = \sum_{n=1}^{N} \log \frac{1}{\sqrt{2 \pi}\sigma}+\sum_{n=1}^{N}\left(-\frac{\left(x^{(n)}-\mu\right)^{2}}{2 \sigma^2}\right) \end{aligned} logp(xμ;σ2)=n=1NlogN(x(n);μ,σ2)=n=1Nlog(2π σ1exp(2σ2(x(n)μ)2))=n=1Nlog2π σ1+n=1N(2σ2(x(n)μ)2)
等式右边的第二项对 μ \mu μ 求导,并令其等于零,得 μ M L = x \mu^{ML}=\boldsymbol{x} μML=x

(2)问

由贝叶斯公式得参数 μ \mu μ 的后验分布为 p ( μ ∣ x ; v , σ ) ∝ p ( x ∣ μ ; σ ) p ( μ ; v ) p(\mu|\boldsymbol{x};v,\sigma)\propto p(\boldsymbol{x}|\mu;\sigma) p(\mu;v) p(μx;v,σ)p(xμ;σ)p(μ;v),两边取对数
log ⁡ p ( μ ∣ x ; v , σ ) ∝ log ⁡ p ( x ∣ μ , σ ) + log ⁡ p ( μ ; v ) ∝ − 1 2 σ 2 ∥ x − μ ∥ 2 − 1 2 v 2 μ 2 \begin{aligned} \log p(\mu|\boldsymbol{x};v,\sigma) & \propto \log p(\boldsymbol{x}|\mu,\sigma)+\log p(\mu;v) \\ & \propto-\frac{1}{2 \sigma^{2}}\left\|\boldsymbol{x}-\mu\right\|^{2}-\frac{1}{2 v^{2}} \mu^2 \end{aligned} logp(μx;v,σ)logp(xμ,σ)+logp(μ;v)2σ21xμ22v21μ2
μ \mu μ 进行求导可以解得 μ M A P = v 2 v 2 + σ 2 x \mu^{MAP}=\frac{v^2}{v^2+\sigma^2}\boldsymbol{x} μMAP=v2+σ2v2x

习题 2-7 在习题 2-6 中,证明当 N → ∞ N\rightarrow\infty N 时,最大后验估计趋向于最大似然估计。

习题 2-9 试分析什么因素会导致模型出现图 2.6 所示的高偏差高方差情况。

一般来说,高偏差是因为模型欠拟合了,高方差是因为模型过拟合了,如果两个都偏高,那么模型可能出现了问题,或者不能够用来解决给定的问题。

习题 2-11 分别用一元、二元和三元特征的词袋模型表示文本「我打了张三」和「张三打了我」,并分析不同模型的优缺点。

首先这句话可以分为三个词:我 | 打了 | 张三,加上文本的开始 $ 和结束 #。

一元特征:$ | 我 | 打了 | 张三 | #

二元特征:$ | $我 | 我打了 | 打了张三 | 张三#

三元特征:$ | $我打了 | 我打了张三 | 打了张三#

习题 2-12 对于一个三分类问题,数据集的真实标签和模型的预测标签分别为: [ 1 , 1 , 2 , 2 , 2 , 3 , 3 , 3 , 3 ] [1,1,2,2,2,3,3,3,3] [1,1,2,2,2,3,3,3,3] [ 1 , 2 , 2 , 2 , 3 , 3 , 3 , 1 , 2 ] [1,2,2,2,3,3,3,1,2] [1,2,2,2,3,3,3,1,2],分别计算模型的精确率、召回率、 F 1 \mathcal{F1} F1 值以及它们的宏平均和微平均。


P = [ 1 2 , 1 2 , 2 3 ] , R = [ 1 2 , 2 3 , 1 2 ] , F 1 = [ 1 2 , 4 7 , 4 7 ]     P m a c r o = 5 9 , R m a c r o = 5 9 , F 1 m a c r o = 5 9 \boldsymbol{\mathcal{P}}=[\frac{1}{2},\frac{1}{2},\frac{2}{3}] , \boldsymbol{\mathcal{R}}=[\frac{1}{2},\frac{2}{3},\frac{1}{2}] , \boldsymbol{\mathcal{F1}}=[\frac{1}{2},\frac{4}{7},\frac{4}{7}] \\ \, \\ \, \mathcal{P_{macro}}= \frac{5}{9}, \mathcal{R_{macro}}= \frac{5}{9}, \mathcal{F1_{macro}}= \frac{5}{9} P=[21,21,32],R=[21,32,21],F1=[21,74,74]Pmacro=95,Rmacro=95,F1macro=95

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值