HBU_神经网络与深度学习 作业2 线性模型


写在前面的一些内容

本次习题来源于 神经网络与深度学习 pdf电子书的第90页和第91页(对应纸质版第77页和第78页)的习题3-2、习题3-5和习题3-6。
水平有限,难免有误,如有错漏之处敬请指正。

习题3-2

在线性空间中,证明一个点 x \boldsymbol{x} x到平面 f ( x ; w ) = w T x + b = 0 f(\boldsymbol{x};\boldsymbol{w})=\boldsymbol{w}^T\boldsymbol{x}+b=0 f(x;w)=wTx+b=0距离为 ∣ f ( x ; w ) ∣ / ∣ ∣ w ∣ ∣ |f(\boldsymbol{x};\boldsymbol{w})|/||\boldsymbol{w}|| f(x;w)∣/∣∣w∣∣

答:
取平面 f ( x ; w ) = 0 f(\boldsymbol{x};\boldsymbol{w})=0 f(x;w)=0中任意一点 x 0 \boldsymbol{x_0} x0作向量 x 0 x → \overrightarrow{\boldsymbol{x_{0}x}} x0x ,在平面法向量 n → \overrightarrow{\boldsymbol{n}} n (即 w \boldsymbol{w} w)上的投影 d d d满足
d = ∣ ∣ x 0 x → ∣ ∣ ⋅ c o s ( θ ) d=||\overrightarrow{\boldsymbol{x_{0}x}}||\cdot cos(\theta) d=∣∣x0x ∣∣cos(θ)其中 θ \theta θ n → \overrightarrow{\boldsymbol{n}} n x 0 x → \overrightarrow{\boldsymbol{x_{0}x}} x0x 的夹角。
c o s ( θ ) = ∣ x 0 x → ⋅ w ∣ ∣ ∣ x 0 x → ∣ ∣ ∣ ∣ w ∣ ∣ = ∣ x → ⋅ w − x 0 → ⋅ w ∣ ∣ ∣ x 0 x → ∣ ∣ ∣ ∣ w ∣ ∣ = ∣ f ( x ; w ) − f ( x 0 ; w ) ∣ ∣ ∣ x 0 x → ∣ ∣ ∣ ∣ w ∣ ∣ cos(\theta)=\frac{|\overrightarrow{\boldsymbol{x_{0}x}} \cdot \boldsymbol{w}|}{||\overrightarrow{\boldsymbol{x_{0}x}}||||\boldsymbol{w}||}=\frac{|\overrightarrow{\boldsymbol{x}} \cdot \boldsymbol{w}-\overrightarrow{\boldsymbol{x_0}} \cdot \boldsymbol{w}|}{||\overrightarrow{\boldsymbol{x_{0}x}}||||\boldsymbol{w}||}=\frac{|f(\boldsymbol{x};\boldsymbol{w})-f(\boldsymbol{x_0};\boldsymbol{w})|}{||\overrightarrow{\boldsymbol{x_{0}x}}||||\boldsymbol{w}||} cos(θ)=∣∣x0x ∣∣∣∣w∣∣x0x w=∣∣x0x ∣∣∣∣w∣∣x wx0 w=∣∣x0x ∣∣∣∣w∣∣f(x;w)f(x0;w)因为点在平面内 x 0 \boldsymbol{x_0} x0在平面 f ( x ; w ) f(\boldsymbol{x};\boldsymbol{w}) f(x;w)内,所以 f ( x 0 ; w ) = 0 f(\boldsymbol{x_0};\boldsymbol{w})=0 f(x0;w)=0,即
c o s ( θ ) = ∣ f ( x ; w ) ∣ ∣ ∣ x 0 x → ∣ ∣ ∣ ∣ w ∣ ∣ cos(\theta)=\frac{|f(\boldsymbol{x};\boldsymbol{w})|}{||\overrightarrow{\boldsymbol{x_{0}x}}||||\boldsymbol{w}||} cos(θ)=∣∣x0x ∣∣∣∣w∣∣f(x;w)将上式代入 d d d,可得 d = ∣ f ( x ; w ) ∣ / ∣ ∣ w ∣ ∣ d=|f(\boldsymbol{x};\boldsymbol{w})|/||\boldsymbol{w}|| d=f(x;w)∣/∣∣w∣∣

习题3-5

在Logistic回归中,是否可以用 y ^ = σ ( w T x ) \hat{y}=\sigma(\boldsymbol{w}^T\boldsymbol{x}) y^=σ(wTx)去逼近正确的标签 y y y,并用平方损失 ( y − y ^ ) 2 (y-\hat{y})^2 (yy^)2最小化来优化参数 w \boldsymbol{w} w

答:和上一章的习题2-1类似,在分类问题中我们只关注在其中一类中正确的概率,而不关注对于其他类别的预测正确概率,所以在分类问题中不适用平平方损失函数。
综上。

习题3-6

在Softmax回归的风险函数
R ( W ) = − 1 N ∑ n = 1 N ( y ( n ) ) T l o g y ^ ( n ) \mathcal{R}(\boldsymbol{W})=-\frac{1}{N}\sum_{n=1}^N(\boldsymbol{y}^{(n)})^Tlog\boldsymbol{\hat{y}}^{(n)} R(W)=N1n=1N(y(n))Tlogy^(n)中,如果加上正则化项会有什么影响?

Softmax回归中使用的𝐶个权重向量是冗余的,即对所有的权重向量都减去一个同样的向量 v v v,不改变其输出结果。因此,Softmax回归往往需要使用正则化来约束其参数。此外,我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值