机器学习(周志华著) Datawhale打卡第二天
第三章
一些重要公式和结论的推导
- 多维最小二乘法的解
设均方误差 E ω ^ = ( y − X ω ^ ) T ( y − X ω ^ ) E_{\hat{\omega} }=(y-X\hat{\omega})^T(y-X\hat{\omega}) Eω^=(y−Xω^)T(y−Xω^),其中 ω ^ = ( ω b ) \hat{\omega}=(\begin{matrix} \omega\\b\end{matrix}) ω^=(ωb)
E ω ^ = ( y T − ω ^ T X T ) ( y − X ω ^ ) E_{\hat{\omega}}=(y^T-\hat{\omega}^TX^T)(y-X\hat{\omega}) Eω^=(yT−ω^TXT)(y−Xω^)
= y T y − ω ^ T X T y − y T X ω ^ + ω ^ T X T X ω ^ =y^Ty-\hat{\omega}^TX^Ty-y^TX\hat{\omega}+\hat{\omega}^TX^TX\hat{\omega} =yTy−ω^TXTy−yTXω^+ω^TXTXω^
求偏导数 ∂ E ω ^ ∂ ω ^ = − X T y − X T y + 2 X T X ω ^ = 2 X T ( X ω ^ − y ) \frac{\partial{E_{\hat{\omega}}}}{\partial{\hat\omega}}=-X^Ty-X^Ty+2X^TX\hat{\omega}=2X^T(X\hat{\omega}-y) ∂ω^∂Eω^=−XTy−XTy+2XTXω^=2XT(Xω^−y)
当 X T X X^TX XTX是半正定矩阵时,问题 m i n E ω ^ minE_{\hat{\omega}} minEω^为凸优化,此时可令 ∂ E ω ^ ∂ ω ^ = 0 \frac{\partial{E_{\hat{\omega}}}}{\partial{\hat\omega}}=0 ∂ω^∂Eω^=0得到最优解
此时,当 X T X X^TX XTX是可逆矩阵,可得 ω ^ ∗ = ( X T X ) − 1 X T y \hat{\omega}^{*}=(X^TX)^{-1}X^Ty ω^∗=(XTX)−1XTy
- 一些用到的矩阵与向量求导法
∂ a T x ∂ x = a \frac{\partial{a^Tx}}{\partial x}=a ∂x∂aTx=a, ∂ x T a ∂ x = a \frac{\partial x^Ta}{\partial x}=a ∂x∂xTa=a
∂ x T a x x = 2 a x \frac{\partial x^Tax}{x}=2ax x∂xTax=2ax
- 向量投影
对于投影方向 w w w, x x x在 w w w方向上的投影为: w T x w^Tx wTx或者 x T w x^Tw xTw
举例:
设 w 方 向 上 有 向 量 w ^ = ( 4 , 4 ) T , x = ( 1.2 , 2 ) T 设w方向上有向量\hat w=(4,4)^T,x=(1.2,2)^T 设w方向上有向量w^=(4,4)T,x=(1.2,2)T
那 么 w ^ T x = x T w ^ = 12.8 那么\hat w^Tx=x^T\hat w=12.8 那么w^Tx=xTw^=12.8
此 时 计 算 x 在 w ^ 向 量 上 的 投 影 向 量 为 x ^ = ( ( 1. 2 2 + 2 2 ∗ ( c o s ( t a n − 1 ( 2 1.2 ) − 45 ) ) ∗ c o s 45 , ( 1. 2 2 + 2 2 ∗ ( c o s ( t a n − 1 ( 2 1.2 ) − 45 ) ) ∗ s i n 45 ) T = ( 1.6 , 1.6 ) T 此时计算x在\hat w向量上的投影向量为\hat x=((\sqrt{1.2^2+2^2}*(cos(tan^{-1}(\frac{2}{1.2})-45))*cos45,\\(\sqrt{1.2^2+2^2}*(cos(tan^{-1}(\frac{2}{1.2})-45))*sin45)^T=(1.6,1.6)^T 此时计算x在w^向量上的投影向量为x^=((1.22+22∗(cos(tan−1(1.22)−45))∗cos45,(1.22+22∗(cos(tan−1(1.22)−45))∗sin45)T=(1.6,1.6)T
∣ x ^ ∣ = 8 2 5 ≈ 2.2627 |\hat x|=\frac{8\sqrt{2}}{5}\approx2.2627 ∣x^∣=582≈2.2627
则 x 在 w ^ 方 向 上 的 投 影 为 ∣ x ^ ∣ ∣ w ^ ∣ = 12.8 = x T w ^ = w ^ T x 则x在\hat w方向上的投影为|\hat x||\hat w|=12.8=x^T\hat w=\hat w^Tx 则x在w^方向上的投影为∣x^∣∣w^∣=12.8=xTw^=w^Tx
如 此 推 广 到 w 方 向 上 , 可 得 到 上 述 命 题 如此推广到w方向上,可得到上述命题 如此推广到w方向上,可得到上述命题
- 未完待补充。。。