[机器学习笔记]一:Linear Regression（线性回归）

最新推荐文章于 2023-11-29 21:57:18 发布

吵闹的史密斯

最新推荐文章于 2023-11-29 21:57:18 发布

阅读量319

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/k_ljy/article/details/79124261

版权

最近开始进行机器学习（目前是个noob），学习了很长一段时间后发现，看了后面忘了前面，于是决定做一个学习笔记
本专题将顺着斯坦福公开课的讲义一路写下去，可能不会有太多的个人见解，可能更像是讲义中知识点的概括，文章风格可能会带有比较浓厚的个人风格且文笔较烂，而且大概率会出现错误，如果有大手子见到了这篇博客（尽管我认为不会有人看我的博客），还请在评论中斧正

下面进入正题：

1. 简述

众所周知，房价会受到面积、房间数量的影响，那么这两个参数对房价的影响是怎样的呢？

对于这个问题，我们假设面积和房间数量为x，其中x是一个二元对，房价为y，那么这个问题，就是找到一个h，使 $h(x)=y$
当然，样本可能有多个，而且实际的参数数量也不会是面积和房间数量两个，因此我们记 $x{^{(i)}_j}$ 为第i个样本的第j个参数
并且我们假设h的形式为

h θ (x) = \sum n i = 0 θ i x i (28)

$h{_{\theta}}(x) = \sum{^n_{i=0}} {\theta_{i}x_{i}}$
其中

x0 x 0 $x_{0}$ 的值为1
那么h可以化简为

h (x) = θ T x (29)

$h(x) = \theta^{T}x$
接着，我们定义代价函数

J (θ) = 1 2 \sum m i = 0 (h θ (x (i)) - y (i)) 2 (30)

$J(\theta) = \frac {1} {2} \sum{^{m}_{i=0}} (h{_{\theta}}(x^{(i)}) - y^{(i)})^{2}$
其中x为向量，y为实数
显然，

J(θ) J ( θ ) $J(\theta)$ 的值越小，h(x)就越符合条件

2. LMS algorithm(最小均方算法)

为了求出 $J(\theta)$ 的最小值，我们需要使用梯度下降的方法，规则为

θ j = θ j - α \partial \partial θ j J (θ j) (5)

$\theta_j = \theta_j - \alpha\frac{∂}{∂\theta_j} J(\theta_j)$
其

α α $\alpha$ 为学习速率
将

J(θ)代入其中，我们可以将公式化简为θj=θj+α(y−hα(x(i)))x(i)j J ( θ ) 代入其中，我们可以将公式化简为 θ j = θ j + α ( y − h α ( x ( i ) ) ) x j ( i ) $J(\theta)代入其中，我们可以将公式化简为 \theta_j = \theta_j + \alpha(y - h_{\alpha}(x{^{(i)}}))x{^{(i)}_j}$
我们将用这条公式进行迭代，直到

θ θ $\theta$ 基本不变化为止

3. The normal equations(正态方程)

3.1 Matrix derivatives(衍生矩阵)

首先定义符号 $\nabla:$

\nabla A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ \partial f \partial A 11 ⋮ \partial f \partial A m 1 \dots ⋱ \dots \partial f \partial A 1 n ⋮ \partial f \partial A m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ 其 中 A \in R m \times n, \nabla A f (A) \in R (6)

$\nabla_Af(A) = \begin{bmatrix} \frac{∂f}{∂A_{11}} & \cdots & \frac{∂f}{∂A_{1n}}\\ \vdots & \ddots & \vdots \\ \frac{∂f}{∂A_{m1}} & \cdots & \frac{∂f}{∂A_{mn}}\\ \end{bmatrix} 其中A \in R^{m\times n}, \nabla_Af(A) \in R\\$

再有tr A为矩阵的trace(迹)

我们可以得到以下4条公式

\nabla A t r A B = B T (e q u .1) (7)

$\nabla_AtrAB = B^T (equ.1)$

\nabla A T t r A B = (\nabla A f (A)) T (e q u .2) (8)

$\nabla_{A^T}trAB = (\nabla_Af(A))^T (equ.2)$

\nabla A t r A B A T C = C A B + C T A B T (e q u .3) (9)

$\nabla_AtrABA^TC = CAB+C^TAB^T (equ.3)$

\nabla A | A | = | A | (A - 1) T (e q u .4) (10)

$\nabla_A|A| = |A|(A^{-1})^T (equ.4)$

3.2 Least squares revisited(直接求解)

我们定义design matrix

X = ⎡ ⎣ ⎢ ⎢ (x (1)) T ⋮ (x (m)) T ⎤ ⎦ ⎥ ⎥ (11)

$X = \begin{bmatrix}(x^{(1)})^T\\ \vdots\\ (x^{(m)})^T\\ \end{bmatrix}$
为训练样本构成的矩阵,经过化简，我们可以得到

\nabla θ J (θ) = X T X θ - X T y ⃗ (12)

$\nabla_{\theta}J(\theta) = X^TX\theta - X^T\vec{y}$
进一步可以得到

θ = (X T X) - 1 X T y ⃗ (13)

$\theta = (X^TX)^{-1}X^T\vec{y}$
当然，矩阵乘法的复杂度最少是

O(n2.71) O ( n 2.71 ) $O(n^{2.71})$ ，因此这种方法虽然直接，但是不一定适用，我们更多的会使用梯度下降

4. Probabilistic interpretation(概率解释)

我们在1)中得到了一个 $J(\theta)$ 函数，为什么这个我们要假设为这个函数呢？下面给出解释
在实际问题中，可能或有许多因素导致结果不准确，我们把这些导致不准确的因素用变量 $\epsilon^{i}$ 表示，那么因为

y (i) = θ T x (i) + ϵ (i) (14)

$y^{(i)} = \theta^Tx^{(i)} + \epsilon^{(i)}$

p (ϵ (i)) = 1 2 π σ - - - \sqrt e x p (- ( ϵ ( i ) ) 2 2 σ 2) (15)

$p(\epsilon^{(i)}) = \frac{1}{\sqrt{2π\sigma}}exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})$
可以得到

p (y (i) | x (i); θ) = 1 2 π σ - - - \sqrt e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) (16)

$p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2π\sigma}}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$
其中这条式子里

x和θ x 和 θ $x和\theta$ 是参数，记似然函数为

L(θ) L ( θ ) $L(\theta)$ ，则令似然函数的值最大，就是令

1 2 \sum i = 1 m (y (i) - θ T x (i)) 2 (17)

$\frac{1}{2}\sum^{m}_{i=1}(y^{(i)}-\theta^Tx^{(i)})^2$
的值最大，这正是我们上文提到的

J(θ) J ( θ ) $J(\theta)$

5. Locally weighted linear regression(局部加权线性回归)

首先，了解了什么是欠拟合和过拟合
然后，我们在 $J(\theta)的每一项中增加一个权值参数w^{(i)}$ ，我们可以假设

w (i) = e x p (- ( x ( i ) - x ) 2 2 τ 2) (18)

$w^{(i)} = exp(-\frac{(x^{(i)}-x)^2}{2\tau^2})$
在这个模型中，

x(i)与x的值越接近，w越大（接近1），反之越小（接近0） x ( i ) 与 x 的值越接近， w 越大（接近 1 ），反之越小（接近 0 ） $x^{(i)}与x的值越接近，w越大（接近1），反之越小（接近0）$

吵闹的史密斯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[机器学习笔记]一:Linear Regression（线性回归）

最近开始进行机器学习（目前是个noob），学习了很长一段时间后发现，看了后面忘了前面，于是决定做一个学习笔记本专题将顺着斯坦福公开课的讲义一路写下去，可能不会有太多的个人见解，可能更像是讲义中知识点的概括，文章风格可能会带有比较浓厚的个人风格且文笔较烂，而且大概率会出现错误，如果有大手子见到了这篇博客（尽管我认为不会有人看我的博客），还请在评论中斧正下面进入正题：1. 简述众所
复制链接

扫一扫