[机器学习]线性回归初探

最新推荐文章于 2024-09-27 10:38:52 发布

不想CRUD的小凯

最新推荐文章于 2024-09-27 10:38:52 发布

阅读量374

点赞数

分类专栏：机器学习/人工智能文章标签：机器学习线性回归回归

本文链接：https://blog.csdn.net/qq_41755616/article/details/129839021

版权

机器学习/人工智能专栏收录该内容

1 篇文章 1 订阅

订阅专栏

线性回归是机器学习中基本的回归方法，用于预测连续值输出。模型通过最小化误差，如均方误差，来训练。误差是预测值与真实值的差异，线性回归假设误差服从高斯分布。优化通常涉及梯度下降算法，寻找使误差最小化的模型参数。批量、随机和小批量梯度下降是常用的优化策略，学习率是影响优化过程的关键因素。

摘要由CSDN通过智能技术生成

[机器学习]线性回归初探

在机器学习中有监督学习下有两种：

回归：指给定一个输入，预测一个连续的输出值。

分类：指给定一个输入，将其分为若干个预定义的类别中的一种。分类算法中会给出一个明确的类别。

分类和回归的区别在于输出的类型不同，分类输出离散的类别标签，而回归输出连续的数值。举个例子，如果我们要通过一张图片判断它是狗还是猫，这就是一个分类问题；如果我们要预测这张图片上狗的年龄，这就是一个回归问题。如果我们要通过一个人的症状来判断他们患的是哪一种疾病，这就是一个分类问题；如果我们要预测这个人的寿命，这就是一个回归问题。

回归

回归问题是指通过对已知数据的学习，建立一个模型，该模型可以预测一个连续值输出，例如预测一个房子的价格、股票的价格等。

线性回归是回归问题中最基本的一种方法。它假设输入和输出之间存在一个线性关系，即输出可以用输入的线性组合表示。

具体地说，给定一个包含 n 个特征的样本，线性回归模型的目标是找到一个函数，它将输入的 n 个特征值映射到一个连续的输出值上。

在这里插入图片描述

举个例子：

数据：工资，年龄（2个特征）

目标：预测一个贷款公司将会贷款多少钱给这个人（标签）

考虑：2个特征都会影响公司的最终决定，那么这2个特征对于最终目标的影响有多大呢？也就是权重有多大？（参数）

公式推导：

假设工资为 $x_1$ ，年龄为 $x_2$ ，最终贷款为 $y$ ，那么这个公司需要根据一个指定的比重来判断最终给出的钱应该是多少，也就得到了 $y=\theta_1x_1+\theta_2x_2$

在这里插入图片描述

虽然存在了，但是没办法拟合所有的数据点，应该要尽可能的拟合更多的数据点才行，因此最终还得需要有一个常数 $\theta_0$ （偏置项）来微调计算最终结果，那么就可以得到公式

$y=\theta_0+\theta_1x_1+\theta_2x_2$

其中应该是有 $x_0$ ，而 $x_0$ 应该始终值为1。

因此公式调整为

$y=\theta_0x_0+\theta_1x_1+\theta_2x_2$

其中， $y$ 是输出值， $x_1, x_2, ..., x_n$ 是输入特征， $\theta_0, \theta_1, \theta_2, ..., \theta_n$ 是待学习的模型参数。

也就是

$f(x)=\sum_{i=0}^N\theta_ix_i=\theta^Tx$

所以最终 $\theta^T$ 便是需要求解的内容

误差

在机器学习中的线性回归问题中，误差通常是指预测值和真实值之间的差异，也就是模型的预测误差。误差可以用许多不同的指标来度量，其中最常用的指标是均方误差（Mean Squared Error，MSE）。

模型计算出来的是预测值，而你给定的是真实值，两者之间肯定存在误差。

因此存在公式 $ y^{(i)}=\thetaTx^{(i)}+\xi{(i)}$

那么我肯定是希望误差越小越好，也就是 $\xi^{(i)}$ 值越小越好。

在机器学习中，线性回归模型通常是通过最小化数据集上的误差来训练的。误差通常被定义为模型预测值和真实值之间的差异。对于一个给定的数据样本 $i$ ，其误差 $\xi^{(i)}$ 可以被表示为：

在这里插入图片描述

误差 $\xi^{(i)}$ 独立且具有相同分布，且服从均值为零方差为 $\theta^2$ 的高斯分布。这意味着误差 $\xi^{(i)}$ 是随机的，并且其随机性是由高斯分布来建模的。具体来说，它意味着：

误差 $\xi^{(i)}$ 的值不仅仅取决于输入数据 $x^{(i)}$ ，还受到一些随机性的影响。
不同样本的误差 $\xi^{(i)}$ 是相互独立的，即一个样本的误差值并不能预测另一个样本的误差值。
误差 $\xi^{(i)}$ 的分布是高斯分布，也称为正态分布，其均值为零，方差为 $\theta^2$ 。高斯分布是一种常见的分布形式，其在自然界中的许多现象中都有应用，例如身高、体重等。

这些假设的来历通常是通过对数据集进行统计分析和建模而得到的。在训练模型时，这些假设允许我们使用最小二乘法来确定模型参数，进而最小化数据集上的误差。

因此最终误差也是可以获得近似值的。

在机器学习中，线性回归模型通常假设误差服从均值为 $0$ 、方差为 $\theta^2$ 的高斯分布，即：

在机器学习中，线性回归模型通常假设误差服从均值为 $0$ 、方差为 $\theta^2$ 的高斯分布，即 $\xi^{(i)} \sim N(0,\theta^2)$ ，其中 $\xi^{(i)}$ 表示第 $i$ 个样本的误差。高斯分布的概率密度函数为 $p(\xi^{(i)}) = \frac{1}{\sqrt{2\pi}\theta} e^{-\frac{(\xi^{(i)})^2}{2\theta^2}}$

如果我们假设每个样本的误差都服从独立同分布的高斯分布，则整个数据集的概率密度函数为

$p(\boldsymbol{\xi}) = \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\theta} e^{-\frac{(\xi^{(i)})^2}{2\theta^2}}$

其中， $\boldsymbol{\xi} = (\xi^{(1)},\xi^{(2)},\dots,\xi^{(m)})$ 表示整个数据集的误差向量。

将 $ y^{(i)}=\thetaTx^{(i)}+\xi{(i)}$ 代入 $p(\xi^{(i)}) = \frac{1}{\sqrt{2\pi}\theta} e^{-\frac{(\xi^{(i)})^2}{2\theta^2}}$ 中，得到：

$p(y^{(i)}|\theta,x^{(i)}) = \frac{1}{\sqrt{2\pi}\theta} e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\theta^2}}$

似然函数

在机器学习中，我们通常使用似然函数来描述模型参数对样本观测结果的拟合程度。对于线性回归模型，似然函数可以表示为：

$L(\theta|x,y) = \prod_{i=1}^{m} p(y^{(i)}|\theta,x^{(i)}) = \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\theta} e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\theta^2}}$

表示什么样的参数跟我们的数据组合后恰好是真实值

但由于这个公式是一个乘积公式，计算机计算乘积会极度麻烦，因此需要转换成加法的方式

因此两边同时取对数，并化简为加减法的形式

将似然函数两边取对数可以得到：

$\log L(\theta|x,y) = \sum_{i=1}^{m} \log p(y^{(i)}|\theta,x^{(i)}) = \sum_{i=1}^{m} \log \frac{1}{\sqrt{2\pi}\theta} e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\theta^2}}$

进一步化简，可以得到：

$\log L(\theta|x,y) = -\frac{m}{2} \log 2\pi - m \log\theta - \sum_{i=1}^{m} \frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\theta^2}$

也即

$\log L(\theta|x,y) = -\frac{m}{2} \log 2\pi - m \log\theta - \frac{1}{2\theta^2} \sum_{i=1}^{m} (y^{(i)}-\theta^Tx^{(i)})^2$

因为在最大化似然函数时， $\log L(\theta|x,y)$ 是单调递增的，所以最大化 $\log L(\theta|x,y)$ 等价于最大化 $L(\theta|x,y)$ 。

目标：让似然函数越大越好，因为我们假设数据集中的每个样本都是独立同分布的，因此似然函数就是每个样本的概率密度函数的乘积，似然函数的值越大，说明我们的模型对观测数据的拟合度越好。

因此最终得到的一个简化公式为：

$J(\theta)=\frac{1}{2}\displaystyle\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2$

由于前面的值是个定值，因此这个 $J(\theta)$ 应该是越小，似然函数的值才会越大。这个 $J(\theta)$ 公式也叫最小二乘法

对 $J(\theta)$ 展开后得到

$J(\theta)=\frac{1}{2}\displaystyle\sum_{i=1}^{m}(h_\theta(x^{(i)})-\theta^Tx^{(i)})^2=\frac{1}{2}(X\theta-y)^T(X\theta-y)$

对于矩阵进行展开平方项等于转置乘上自身，这里的 $X$ 和 $\theta$ 是一个矩阵的概念

也即给定什么样的 $\theta$ 使得 $J(\theta)$ 越小越好

因此需要对 $\frac{1}{2}(X\theta-y)^T(X\theta-y)$ 对 $\theta$ 求偏导

$(X\theta-y)^T(X\theta-y)=\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta+y^Ty$

$\frac{d}{d\theta}[\frac{1}{2}(X\theta-y)^T(X\theta-y)]=\frac{d}{d\theta}[\frac{1}{2}(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta+y^Ty)]$

$=(X^TX\theta+X^Ty)-(X^Ty)^T$

$=X^T(X\theta-y)$

因此， $\frac{d}{d\theta}[\frac{1}{2}(X\theta-y)^T(X\theta-y)]=X^T(X\theta-y)$

让偏导等于0：

首先，对 $\frac{1}{2}(X\theta-y)^T(X\theta-y)$ 关于 $\theta$ 求偏导数：

$\frac{\partial}{\partial\theta}\left(\frac{1}{2}(X\theta-y)^T(X\theta-y)\right) = X^T(X\theta-y)$

然后令其为0，得到：

$X^T(X\theta-y) = 0$

移项得到：

$X^TX\theta = X^Ty$

因为 $X^TX$ 是可逆的，所以可以解出 $\theta$ ：

$\theta = (X^TX)^{-1}X^Ty$

梯度下降和梯度上升

梯度下降和梯度上升都是优化算法中常用的方法。以梯度下降为例，它是一种用于最小化目标函数的迭代方法。具体来说，对于一个目标函数，我们可以计算出它在某个点的梯度（即函数在这个点的导数），这个梯度表示函数在这个点上升最快的方向。而梯度下降算法就是沿着这个梯度相反的方向（即下降最快的方向）不断迭代，直到找到函数的最小值。

梯度上升和梯度下降类似，不同的是它是用于最大化目标函数的迭代方法。具体来说，我们同样可以计算出函数在某个点的梯度，但这个梯度表示函数在这个点上升最快的方向。梯度上升算法就是沿着这个梯度的方向不断迭代，直到找到函数的最大值。

梯度下降和梯度上升都是通过不断地迭代来更新参数（或变量），直到达到目标函数最小值或最大值的优化算法。在实际的机器学习应用中，梯度下降算法常用于线性回归、逻辑回归等模型的求解，而梯度上升算法则常用于支持向量机、人工神经网络等模型的求解。

当我们得到一个目标函数后，怎么进行求解？（结果并不一定可解）机器学习就是我交给机器一堆数据，然后告诉机器什么样的学习方式是对的（获取目标函数），然后让它朝着这个方向去优化。