机器学习（一）线性回归

最新推荐文章于 2024-07-25 08:20:58 发布

黄昏贩卖机

最新推荐文章于 2024-07-25 08:20:58 发布

阅读量142

点赞数

分类专栏：机器学习文章标签：机器学习概率论神经网络

本文链接：https://blog.csdn.net/greatcoder/article/details/120524555

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Linear Regression

线性回归

线性回归

监督学习

Features : input variables,x;
Target : output vaiable,y;
Training example:( $x^{(i)},y^{(i)}$ ), i = 1,2,3,…,m
Hypothesis: h :x $\rightarrow$ y

linear regression

Linear hypothesis : $\theta_{1}x + \theta_{0}$
$\theta_{i}$ :要估计的参数

如何去选择 $\theta_{i}$ ?

给定data $\in \mathbb{R}^{n}$ ，有 $\theta \in \mathbb{R}^{n+1}$
那么 $h_{\theta}(x) = \sum_{i=0}^{n}\theta_{i}x_{i} = \theta^{T}x$ ,在这里定义 $x_{0} = 1$ (为x添加一维)

如何去选择最好的 $\theta$ ?

定义损失函数(cost function)：
$J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^{2}$
也就是估计值于样本差值平方和

目标：
$J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^{2}$

梯度

变化最快的方向

梯度垂直于等值线
梯度的模，代表变化的快慢
梯度的方向指向增长的方向

梯度下降法

$J(\theta) 的值随\theta的变化而改变，沿着j(\theta)梯度相反的方向，能最快的下降，达到收敛值（j(\theta)值最小$
$\rule[-5pt]{14.3cm}{0.1em}$
$\mathbf{Algorithm 1}$ Gradient Descent
$\rule[-5pt]{14.3cm}{0.05em}$
1: $\mathbf{Given}$ a starting point $\theta\in\mathbf{dom}J$
2: $\mathbf{repeat}$
3: Calculate gradient $\bigtriangledown J(\theta);$
4: Update $\theta\leftarrow\theta-\alpha\bigtriangledown J(\theta);$
5: $\mathbf{until}$ convergence criterion is satisfied
$\rule[-5pt]{14.3cm}{0.05em}$

$\theta 可以被随机初始化$
$\alpha 被称为学习速率$

如何更新 $\theta$

$\theta_{j}\leftarrow\theta_{j}-\alpha\frac{\partial J(\theta)}{\partial\theta_{j}}, \forall j=0,1,...,n$
$\frac{\partial J(\theta)}{\partial\theta_{j}} = \frac{\partial}{\partial_{j}}\frac{1}{2}\sum_{i=1}^{m}(\theta^{T}x^{(i)} - y^{(i)})^{2}$
$=\quad \frac{\partial}{\partial_{j}}\frac{1}{2}\sum_{i=1}^{m}(\sum_{j=0}^{n}\theta_{j}x_{j}^{(i)} - y^{(i)})^{2}$
$=\quad \sum_{i=1}^{m}(\sum_{j=0}^{n}\theta_{j}x_{j}^{(i)} - y^{(i)})x_{j}^{(i)}$
$=\quad \sum_{i=1}^{m}(\theta^{T}x^{(i)} - y^{(i)})x_{j}^{(i)}$

注:有时候用的是 $\theta_{j}\leftarrow\theta_{j}-\frac{\alpha}{m}\frac{\partial J(\theta)}{\partial\theta_{j}}, \forall j=0,1,...,n$ ，多一个m，避免了因为数据集太大，导致数值过大的情况

随机梯度下降法 SGD

如若数据集过大，在每一次迭代中，对所有的数据集进行运算，会导致开销过大
使用随机梯度下降，用于解决数据集过大的情况
在每一次迭代的过程中，随机选择一个数据样本进行计算并更新参数
$\rule[-5pt]{14.3cm}{0.1em}$
$\mathbf{Algorithm 2}$ Stochastic Gradient Descent for Linear Regression
$\rule[-5pt]{14.3cm}{0.05em}$
1: $\mathbf{Given}$ a starting point $\theta\in\mathbf{dom}J$
2: $\mathbf{repeat}$
3: Randomly shuffle the training data;
4: for i =1,2,…,m do
5: $\theta\leftarrow\theta-\alpha\bigtriangledown J(\theta;x^{(i)},y^{(i)});$
6: end for
7: $\mathbf{until}$ convergence criterion is satisfied
$\rule[-5pt]{14.3cm}{0.05em}$

函数对向量、矩阵的梯度（向量、矩阵求导）

给出定义，若函数 $\mathbb{r}^{m\times n} \rightarrow\mathbb{R}$ ,则 $\frac{\partial f}{\partial X}也是一个m\times n矩阵$ ：
$(\frac{\partial f}{\partial X})_{ij}= \frac{\partial f}{\partial x_{ij}}$
表示实值函数对矩阵的梯度，记作 $\bigtriangledown_{x}f$

矩阵化计算

$\begin{bmatrix}(x^{(1)})^{T} \\ \vdots \\ (x^{(m)})^{T} \end{bmatrix} \qquad Y = \begin{bmatrix}(y^{(1)})^{T} \\ \vdots \\ (y^{(m)})^{T} \end{bmatrix}$
$X\theta - Y = \begin{bmatrix}(x^{(1)})^{T}\theta \\ \vdots \\ (x^{(m)})^{T} \theta \end{bmatrix} - \begin{bmatrix}(y^{(1)})^{T} \\ \vdots \\ (y^{(m)})^{T} \end{bmatrix} = \begin{bmatrix}h_{\theta}(x^{(1)})^{T} - y^{(1)}\\ \vdots \\ h_{\theta}(x^{(m)})^{T}-y^{(m)} \end{bmatrix}$
$J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^{2} = \frac{1}{2}(X\theta - Y)^{T}(X\theta - Y)$
求解 $\triangledown_{\theta}J(\theta)$ 的矩阵化计算推导
$\triangledown_{\theta}J(\theta) = \triangledown_{\theta}\frac{1}{2}(X\theta - Y)^{T}(X\theta - Y)\\=\frac{1}{2}\triangledown_{\theta}(\theta^{T}X^{T}-Y^{T})(X\theta-Y)\\=\frac{1}{2}\triangledown_{\theta}tr(\theta^{T}X^{T}X\theta-Y^{T}X\theta-\theta^{T}X^{T}Y+Y^{T}Y)\\(注:这里取迹不影响结果因为这个矩阵运算完本来就是一个常数，\\但是会方便我们求导我们求导:\\\triangledown_{A^{T}}trABA^{T}C=B^{T}A^{T}C^{T}+BA^{T}C)\\=\frac{1}{2}\triangledown_{\theta}tr(\theta^{T}X^{T}X\theta)-X^{T}Y\\=\frac{1}{2}(X^{T}X\theta+X^{T}X\theta)-\theta^{T}Y\\= X^{T}X\theta - X^{T}Y$
$当且仅当A的列向量线性无关，A^{T}A可逆，\triangledown_{\theta}J(\theta) =0 的解为：$
$\theta = (X^{T}X)^{-1}X^{T}Y$
但我认为因为有些时候可能这个解不太好解，所以需要我们的梯度下降法，一步步逼近最优解

线性回归与极大似然估计的关系

目标变量和输入的关系
$\theta^{T}x + \epsilon$
$\epsilon$ 表示误差，是独立同分布的，并且服从于高斯分布 $N(0,\sigma^{2})$ ,也就是说，实际的值y和我们计算出来的 $\theta^Tx$ 之间是存在误差的，我们假设这个误差是服从一个高斯分布的。
概率密度函数：
$f(\epsilon) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{\epsilon^2}{2\sigma^2})$
所以y的条件概率密度函数服从
$y|x;\theta \sim N(\theta^Tx,\sigma^2)$
归于给定的训练集 $data\{x^{(i)},y^{(i)}\}$
$y^{(i)}|x = x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2})$

我们要使得我们估计出来的结果，等于实际值的可能性更大，就可以列出如下的极大似然函数：
$L(\theta) = \prod_{i}p(y^{(i)} | x^{(i)} ; \theta) \\ = \prod_{i} \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2})$
进行取对数
$l(\theta) = logL(\theta)\\=m\log \frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\sum_{i}(y^{(i)} - \theta^Tx^{(i)})^2$
那么也就是说，我们要使得 $L(\theta)$ 更大，就要使得下式更小：
$\frac{1}{2}\sum_{i}(y^{(i)} - \theta^Tx^{(i)})^2$
那么就说明，我们设 $J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^{2} = \frac{1}{2}(X\theta - Y)^{T}(X\theta - Y)$ ，去求插值的平方和，而不是4次方或6次方和，是合理的。

黄昏贩卖机

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（一）线性回归

Linear Regression线性回归监督学习linear regression如何去选择 θi\theta_{i}θi?梯度梯度下降法如何更新θ\thetaθ随机梯度下降法 SGD函数对向量、矩阵的梯度（向量、矩阵求导）矩阵化计算线性回归与极大似然估计的关系（to be continued）线性回归监督学习Features : input variables,x;Target : output vaiable,y;Training example:( x(i),y(i)x^{(i)},
复制链接

扫一扫