cs229-lecture2-学习笔记

BiggerQ

于 2014-07-31 16:49:47 发布

阅读量613

点赞数

分类专栏：学习笔记文章标签： cs229

本文链接：https://blog.csdn.net/BiggerQ/article/details/38319999

版权

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

符号定义

m:#training examples 训练样本的个数

x:input values/features 输入值/特征值

y:output values/target 输出值/目标值

（x,y）:training example 训练样本

$\i^{th}$ training example $\(x^{(i)},y^{(i)})$ 第i个训练样本

$\theta$ :参数

h:hypothesis 假设函数

$h_{\theta}(x^{(i)})$ :h关于 $\theta$ 的函数在 $x^{i}$ 处的值

线性回归算法

一元线性假设函数: $h_\theta(x)=\theta _{0}+\theta _{1}x_{1}$ 特别的令 $x_{0}=1,x_{1}=x$ 则有 $h_\theta(x)=\theta _{0}x_{0}+\theta _{1}x_{1}$ 同理

二元线性假设函数: $h_\theta(x)=\theta _{0}x_{0}+\theta _{1}x_{1}+\theta_{2}x_{2}$

n元线性假设函数: $h_\theta(x)=\sum_{i=1}^{n}\theta_{i}x_{i}$ 其中n:#features 特征值的个数

代价函数(cost function): $J(\theta )=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}$

目标就是寻找 $\theta$ 使得代价函数 $J(\theta)$ 最小

梯度下降法(gradient descent)

简述：让 $\theta$ 从零向量开始，不断改变 $\theta$ 使得 $J(\theta)$ 减小到最小

具体实现： $\theta _{i}:=\theta _{i}-\alpha\frac{\partial }{\partial\theta_{i}}J(\theta)$ 其中 $\alpha$ 称为学习速率其值过小时导致收敛速度过慢过大时可能导致无法收敛

又 $\frac{\partial }{\partial\theta_{i}}J(\theta)=(h_{\theta}(x)-y)\cdot x_{i}$ 所以 $\theta _{i}:=\theta _{i}-\alpha \cdot (h_{\theta}(x)-y)\cdot x_{i}$

对所有训练样本则有 $\theta _{i}:=\theta _{i}-\alpha \cdot \sum_{j=1}^{m}(h_{\theta}(x^{(j)})-y^{(j)})\cdot x_{i}^{(j)}$ 也称为betch gradient descent 批量梯度下降法

由于对每次更新都要遍历所有的训练样本，所有当数据量很大时，算法较慢，这时可以用

随机梯度下降法（Stochastic gradient descent）：

for j = 1 to m

{

$\theta _{i}:=\theta _{i}-\alpha \cdot(h_{\theta}(x^{(j)})-y^{(j)})\cdot x_{i}^{(j)}$

}

这种方法虽然比较快，但是每次更新不是以全局最小为标准，可能导致一直在最低点附近徘徊无法收敛的问题

正规方程组（normal equation）

$X=\begin{bmatrix} -(x^{(1)})^{T}-\\ -(x^{(2)})^{T}-\\ .\\ .\\ .\\ -(x^{(m)})^{T}- \end{bmatrix}$ $y=\begin{bmatrix} y^{(1)}\\ y^{(2)}\\ .\\ .\\ .\\ y^{(m)} \end{bmatrix}$ $\Theta=\begin{bmatrix} \theta_{0}\\ \theta_{1}\\ .\\ .\\ .\\ \theta_{n} \end{bmatrix}\in \mathbb{R}^{n+1}$
所以 $X\Theta=\begin{bmatrix} -(x^{(1)})^{T}\Theta-\\ -(x^{(2)})^{T}\Theta-\\ .\\ .\\ .\\ -(x^{(m)})^{T}\Theta- \end{bmatrix}=\begin{bmatrix} h_{\theta}(x^{(1)})\\ h_{\theta}(x^{(2)})\\ .\\ .\\ .\\ h_{\theta}(x^{(m)}) \end{bmatrix}$ $X\Theta-\vec{y}=\begin{bmatrix}h_{\theta}(x^{(1)})-y^{(1)}\\h_{\theta}(x^{(2)})-y^{(2)}\\.\\.\\.\\;h_{\theta}(x^{(m)})-y^{(m)}\end{bmatrix}$

$\frac{1}{2}(X\Theta-\vec{y})^{T}(X\Theta-\vec{y})=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x)-y)^{2}=J(\theta)$

设 $\bigtriangledown _{\theta}J=\begin{bmatrix} \frac{\partial J}{\partial \theta _{0}}\\ \frac{\partial J}{\partial \theta _{1}}\\ .\\ .\\ \frac{\partial J}{\partial \theta _{n}} \end{bmatrix}\in \mathbb{R}^{n+1}$

则原(batch)梯度下降法可写成 $\theta \Theta:=\Theta-\alpha\bigtriangledown _{\Theta}J$

假设A是nxn方阵，A的所有主对角线元素之和称为矩阵A的迹(trace)，记为tr(A)，即 $tr(A)=\sum_{i=1}^{n} A_{ii}$

性质：tr(AB)=tr(BA);tr(ABC)=tr(CAB)=tr(BCA);tr(A)=tr(A');当A为一阶方阵时即A是个实数时，tr(A)=A;

假设f(A)=tr(AB),则 $\bigtriangledown_{A}f(A)=\bigtriangledown_{A}tr(AB)=B^{T}$ ; $\bigtriangledown_{A}tr(ABA^{T}C)=CAB+C^{T}AB^{T}$ 故

$\bigtriangledown_{\Theta}J(\theta)=\bigtriangledown_{\Theta}\frac{1}{2}(X\Theta-\vec{y})^{T}(X\Theta-\vec{y})\\ =\frac{1}{2}\bigtriangledown_{\Theta}tr(\Theta^{T}X^{T}X\Theta-\Theta^{T}X^{T}\vec{y}-\vec{y}^{T}X\Theta+\vec{y}^{T}\vec{y})\\ =\frac{1}{2}\bigtriangledown_{\Theta}[tr(\Theta\Theta^{T}X^{T}X)-2tr(\vec{y}^{T}X\Theta)]\\ =\frac{1}{2}(X^{T}X\Theta+X^{T}X\Theta-2X^{T}\vec{y})\\ =X^{T}X\Theta-X^{T}\vec{y}$