2-2 问题
在线性回归中,如果我们给每个样本
(
x
(
n
)
,
y
(
n
)
)
\left( \boldsymbol{x}^{\left( n \right)},y^{\left( n \right)} \right)
(x(n),y(n)) 赋予一个权重
r
n
r^{n}
rn,经验风险函数为
R
(
w
)
=
1
2
∑
n
=
1
N
r
(
n
)
(
y
(
n
)
−
w
T
x
(
n
)
)
2
\mathcal{R}\left( w \right) =\frac{1}{2}\sum_{n=1}^N{\boldsymbol{r}^{\left( n \right)}\left( \boldsymbol{y}^{\left( n \right)}-\boldsymbol{w}^T\boldsymbol{x}^{\left( n \right)} \right) ^2}
R(w)=21n=1∑Nr(n)(y(n)−wTx(n))2
计算其最优参数
w
∗
\boldsymbol{w^*}
w∗,并分析权重
r
n
r^{n}
rn的作用。
解:风险函数
R
(
w
)
\mathcal{R}\left( \boldsymbol{w} \right)
R(w)是关于
w
\boldsymbol{w}
w的凸函数,将
r
n
r^{n}
rn提到最前面进行叠加,其对
w
\boldsymbol{w}
w的偏导为
∂
R
(
w
)
∂
w
=
−
1
2
∑
n
=
1
N
r
(
n
)
X
(
y
−
X
T
w
)
\frac{\partial \mathcal{R}\left( \boldsymbol{w} \right)}{\partial \boldsymbol{w}}=-\frac{1}{2}\sum_{\boldsymbol{n}=1}^N{r^{\left( n \right)}\boldsymbol{X}\left( \boldsymbol{y}-X^T\boldsymbol{w} \right)}
∂w∂R(w)=−21n=1∑Nr(n)X(y−XTw)
令上式为零得到
w
∗
=
∑
n
=
1
N
r
(
n
)
(
X
X
T
)
−
1
X
y
w^*=\sum_{n=1}^N{r^{\left( n \right)}\left( XX^T \right) ^{-1}Xy}
w∗=n=1∑Nr(n)(XXT)−1Xy
结论:我们给每一个样本赋予权重 r n r^{n} rn,这里我理解是在我们进行优化的时候,在局部数据进行优化的时候我们对感兴趣的局部设置权重往往会大一点以用来削弱距离较远的数据带来的影响。倘若在全局进行优化的时候我们往往会给予样本以相差不大的权重;这里权重是对数据处理进行的一次人为的标注,以达到我们所期望的最优参数解。
在邱老师的github课后解答中,我看到答案的解为:
令
R
\boldsymbol{R}
R=diag(
r
n
r^{n}
rn)(对角矩阵)此时
R
\boldsymbol{R}
R
X
\boldsymbol{X}
X就表示将
x
n
x^{n}
xn赋予权重
∂
R
(
w
)
∂
w
=
1
2
∂
R
∣
∣
y
−
X
T
w
∣
∣
2
∂
w
=
0
\frac{\partial \mathcal{R}\left( w \right)}{\partial w}=\frac{1}{2}\frac{\partial \mathcal{R}||\boldsymbol{y}-\boldsymbol{X}^T\boldsymbol{w||}^2}{\partial \boldsymbol{w}}=0
∂w∂R(w)=21∂w∂R∣∣y−XTw∣∣2=0
−
X
R
(
y
−
X
T
w
)
=
0
-\boldsymbol{XR}\left( \boldsymbol{y}-\boldsymbol{X}^{\boldsymbol{T}}\boldsymbol{w} \right) =0
−XR(y−XTw)=0
解得:
w
∗
=
(
X
R
X
T
)
−
1
X
R
y
\boldsymbol{w}^*=\left( \boldsymbol{XRX}^{\boldsymbol{T}} \right) ^{-1}\boldsymbol{XRy}
w∗=(XRXT)−1XRy
此解更为简洁,我们注意的是构建矩阵
R
\boldsymbol{R}
R为对角矩阵