图解机器学习读书笔记-CH3

最新推荐文章于 2024-10-18 00:00:00 发布

weixin_30873847

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量90

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/lucius/p/9426072.html

版权

1. 最小二乘法介绍
2. 线性模型LS
3.最小二乘法解的性质
4. 大规模学习

本文主要介绍最小二乘法原理, 线性模型中的应用, 最小二乘解的本质以及在大规模数据集上的求解方法.

1. 最小二乘法介绍

对模型均方误差最小化时的参数$\theta$学习的方法.
均方误差:
\[ J_{LS}(\theta) = \frac{1}{2}\sum_{i=1}^n(f_\theta(x_1)-y_i)^2 \]

LS: Least Squares
学习目标:
\[ \hat\theta_{LS} = \underset{\theta}{\arg\min}J_{LS}(\theta) \]

平方误差$(f_\theta(x_i)-y_i)^2$是残差$|f_\theta(x_i)-y_i|$的$L2$范数, 最小二乘法也称 $L_2$损失最小化学习法

加权最小二乘法
对训练样本平方差通过权重$w_i$加权, 再使用最小二乘法:
\[ \underset{\theta}{min}\frac{1}{2}\sum_{i=1}^nw_i(f_\theta(x_i)-y_i)^2 \]

核模型的最小二乘法求解:
\[ f_\theta(x) = \sum_{j=1}^n\theta_jK(x,x_j) \]
上式, 将设计矩阵$\Phi$置换为核矩阵K:
\[ K = \begin{pmatrix} K(x_1,x1) &\cdots &K(x_1,x_n) \\ \vdots &\ddots & \vdots \\ K(x_n,x_1) &\cdots & K(x_n,x_n) \end{pmatrix} \]

2. 线性模型LS

\[ f_\theta(x) = \sum_{j=1}^b\theta_i\phi_i(\mathbf x) = \theta^T\phi(x) \]

平方误差:
\[ J_{LS}(\theta) = \frac{1}{2}\|\Phi \mathbf \theta-\mathbf y\|^2 \]

$\Phi$构成的nxb阶设计矩阵:
\[ \Phi = \begin{pmatrix} \phi_1(x_1) &\cdots &\phi_b(x_1) \\ \vdots &\ddots &\vdots \\ \phi_1(x_n) &\cdots &\phi_b(x_n) \\ \end{pmatrix} \]

关于参数向量$\theta$的偏微分:
\[ \nabla \theta_{LS} = (\frac{\partial J_{LS}}{\partial \theta_1}, \cdots, \frac{\partial J_{LS}}{\partial \theta_b})= \Phi^T\Phi\theta-\Phi^T\mathbf y \]
$\nabla \theta_{LS}=0$时$J_{LS}(\theta)$取得最小值, 此时最小二乘解满足$\Phi^T\Phi \theta=\Phi^T\mathbf y$

解得:
\[ \hat \theta_{LS} = (\Phi^T\Phi)^{-1}\Phi^Ty \]

注: 只有$\Phi^T\Phi$有逆矩阵时上式才成立

广义逆矩阵: 是对逆矩阵的推广, 只有方阵, 非奇异矩阵才有逆矩阵, 单矩形矩阵或奇异矩阵都可以定义广义逆矩阵
令广义逆矩阵为:
\[ \Phi^{\dagger} = (\Phi^T\Phi)^{-1}\Phi^T \]
, 则$\hat \theta_{LS}$可写为:
\[ \hat \theta_{LS} = \Phi ^{\dagger}y \]

最小二乘法学习基于三角多项式基函数的线性模型: