机器学习算法（一）线性回归

最新推荐文章于 2024-01-07 18:40:45 发布

谦芊珺

最新推荐文章于 2024-01-07 18:40:45 发布

阅读量589

点赞数 1

分类专栏：机器学习算法文章标签：机器学习算法回归分析

本文链接：https://blog.csdn.net/Yolanda71/article/details/76037677

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

算法

9 篇文章 0 订阅

订阅专栏

机器学习算法（一）线性回归

本文主要梳理一下线性回归和逻辑斯蒂回归这两大算法。这两个算法的关系是什么呢？答案是并没有什么关系。
这样说其实也不对，逻辑斯蒂回归里有线性回归的重要组成部分。但是二者又一个本质区别，就是线性回归是一个“回归”算法，而逻辑斯蒂回归是一个“分类”算法。这就导致两个算法永远像牛郎织女一样隔着银河。本文主要介绍线性回归，下篇文章会在本文的基础上介绍逻辑斯蒂回归。本文思路主要来自邹博的机器学习课程。本文为作者自己学习整理的笔记，转载请注明出处。

线性回归

1、输入描述：

有训练数据集D，其中共有m条数据，n个特征，如下表所示。

数据id	数学	语文	英语	物理
学生1	98	92	96	83
学生2	95	79	86	23
…	34	35	92	92
学生m	67	68	94	72

上表是一个数据表的简单示例，其中包含m条数据，每条数据代表了一名学生；4个特征，分别是数学成绩、语文成绩、英语成绩、物理成绩。

以上是一个具体的表格，我们可以抽象表格如下：

数据id	属性1	属性2	…	属性n	预测值
1	x11	x12	…	x1n	y1
2	x21	x22	…	x2n	y2
…	…	…	…	…	…
m	xm1	xm2	…	xmn	ym

对于其中的某一条数据，可以认为如下：

属性1	属性2	…	属性n	预测值
x1	x2	…	xn	y

2、问题描述

线性回归就是要解决以下问题：

要建立一如下公式1：

y = h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n

$y=h_{\theta }\left( x\right) =\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\ldots +\theta _{n}x_{n}$
我们的目标就是在已知一些数据后，求出该方程的系数，即

θ0 $\theta _{0}$ ,

θ1 $\theta _{1}$ ,…,

θn $\theta _{n}$ .

3、算法推导

上面公式1可做如下变形（公式2）

y ˆ = h θ (x) = \sum i = 1 n θ i x i = θ T x

$\widehat{y}=h_{\theta }\left( x\right) =\sum ^{n}_{i=1}\theta _{i}x_{i}=\theta ^{T}x$

对于数据标签的真实值，我们可以设为 $y$ ,而对于数据用公式1和所有 $x$ 计算得到的值为估计值，设为 $\widehat{y}$ .

因此有公式3

y = y ˆ + ε

$y=\widehat {y}+\varepsilon$

其中，这个 $\varepsilon$ 可以认为是噪声。

根据中心极限定理，我们可以认为这个 $\varepsilon$ 服从正态分布，即

ε \sim N (0, σ 2)

$\varepsilon \sim N\left( 0,\sigma ^{2}\right)$
因此，有公式4

P (ε) = 1 2 π σ ‾ ‾ ‾ ‾ \sqrt e x p (- ε 2 2 σ 2)

$P\left( \varepsilon \right) =\dfrac {1}{\sqrt {2\pi \sigma }}exp\left( -\dfrac {\varepsilon ^{2}}{2\sigma ^{2}}\right)$
因为

ε = y - y ˆ

$\varepsilon=y-\widehat {y}$
带入公式4，将

ε $\varepsilon$ 和

x $x$ 视为常数，则可将

P(ε) $P\left( \varepsilon \right)$ 看成是关于

θ $\theta$ 的函数。即

P(ε)=g(θ) $P\left( \varepsilon \right) =g\left( \theta \right)$
根据最大似然定理，可得关于

θ $\theta$ 的似然函数为公式5

L (θ) = \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt σ e x p ⎛ ⎝ ⎜ ⎜ - ( y i - θ T x i ) 2 2 σ 2 ⎞ ⎠ ⎟ ⎟

$L\left( \theta \right) =\prod ^{m}_{i=1}\dfrac {1}{\sqrt {2\pi }\sigma }exp\left( -\dfrac {\left( y^{i}-\theta ^{T}x^{i}\right) ^{2}}{2\sigma ^{2}}\right)$
其中，

i $i$ 表示第

i $i$ 条数据。该式中，仅

θ $\theta$ 为未知量，我们要做的事就是求出一组

θ $\theta$ ，使

L(θ) $L\left( \theta \right)$ 最大。
对于公式5，可以对其取

log $log$ 求出其对数似然函数。对其对数似然函数可以进一步化简，最终，我们可得到如下的目标函数（公式6）：求出一组

θ $\theta$ 使

J (θ) = 1 2 \sum i = 1 m (θ T x i - y i) 2

$J\left( \theta \right) =\dfrac {1}{2}\sum ^{m}_{i=1}\left( \theta ^{T}x^{i}-y^{i}\right) ^{2}$ 最小。
此处略去求解过程，该式的解决方式是令

J(θ) $J\left( \theta \right)$ 对

θ $\theta$ 求导并令其等于0。最后可求得公式7:

θ = (x T x) - 1 x T y

$\theta =\left( x^{T}x\right) ^{-1}x^{T}y$
当以公式6为目标函数时，并没有考虑过拟合的问题。若想减少过拟合风险，可以对该目标函数加入正则项，常用的方法有以下两种：
1、L1正则（又称LASSO回归）
其目标函数是公式8:

J (θ) = 1 2 \sum i = 1 m (θ T x i - y i) 2 + λ \sum j = 1 n ∣ ∣ θ j ∣ ∣

$J\left( \theta \right) =\dfrac {1}{2}\sum ^{m}_{i=1}\left( \theta ^{T}x^{i}-y^{i}\right) ^{2}+\lambda \sum ^{n}_{j=1}\left| \theta _{j}\right|$

2、L2正则（又称岭回归）
其目标函数是公式9:

J (θ) = 1 2 \sum i = 1 m (θ T x i - y i) 2 + λ \sum j = 1 n θ 2 j

$J\left( \theta \right) =\dfrac {1}{2}\sum ^{m}_{i=1}\left( \theta ^{T}x^{i}-y^{i}\right) ^{2}+\lambda \sum ^{n}_{j=1}\theta ^{2}_{j}$

实际上，一般用公式7直接求出 $\theta$ 是很难的。一般我们会采用梯度下降的方法来求出一个局部最优的 $\theta$ 。

综上，线性回归的目标函数为：公式6、公式8或公式9。即

l o s s = J (θ) = 1 2 \sum i = 1 m (θ T x i - y i) 2

$loss=J\left( \theta \right) =\dfrac {1}{2}\sum ^{m}_{i=1}\left( \theta ^{T}x^{i}-y^{i}\right) ^{2}$ 或

l o s s = J (θ) = 1 2 \sum i = 1 m (θ T x i - y i) 2 + λ \sum j = 1 n ∣ ∣ θ j ∣ ∣

$loss=J\left( \theta \right) =\dfrac {1}{2}\sum ^{m}_{i=1}\left( \theta ^{T}x^{i}-y^{i}\right) ^{2}+\lambda \sum ^{n}_{j=1}\left| \theta _{j}\right|$ 或