【机器学习】线性回归算法概念和最小二乘法数学推导

myqueen_way

已于 2024-04-06 18:53:35 修改

阅读量326

点赞数 3

分类专栏：人工智能学习文章标签：算法机器学习线性回归

于 2024-04-06 18:46:35 首次发布

本文链接：https://blog.csdn.net/myqueen_way/article/details/137430544

版权

人工智能学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

线性回归算法和最小二乘法数学推导

文章目录

线性回归算法和最小二乘法数学推导
前言
一、线性回归其中的基本数学概念
二、最小二乘法MSE

前言

本文主要介绍线性回归算法的基本概念，并拓展理解线性回归算法其中的一些数学原理

一、线性回归其中的基本数学概念

1.回归的概念

回归（regression to mean）,意为回归平均值，是指通过历史数据的推算给出期望值，并将期望值作为预测值。而线性回归的原理则就是最小二乘法

2.误差分析

误差 $\varepsilon _ i$ 等于第i个样本实际的值， $y_i$ 减去预测的值， $\hat y$ ，公式可以代表如下：
$\varepsilon_i = |y_i - \hat y|$
$\varepsilon_i = |y_i - W^Tx_i|$
假设所有的样本误差都是独立的，当足够多的随机变量叠加之后形成的分布，它服从的分布就是正态分布。

3.最大似然估计

最大似然估计(maximum likelihood estimation,MLE)一种重要而普遍的求估计量的方法。最大似然估计明确地使用概率模型，其目标是寻找能够以较高概率产生观察数据的系统发生树，最大似然估计是一类完全基于统计的系统发生树重建方法的代表。

4.高斯分布-概率密度函数

最常见的连续概率分布是正态分布，也叫做高斯分布，其概率密度函数如下：
$f(x|\mu,\delta^2) = \frac{1}{\sqrt{2\pi \delta}}e^{-\frac{(x-\mu)^2}{2\delta^2}}$
随着参数 $\mu$ 和参数 $\delta$ 的变化，概率分布也会产生变化。
通过假设数据的误差服从一个高斯分布，并且通过截距项平移整体分布的位置从而使得 $\mu = 0$ ,送一样本误差我们可以表示表达其概率密度函数的值如下所示：
$f(\varepsilon|\mu = 0,\delta^2) = \frac{1}{\sqrt{2\pi \delta}}e^{-\frac{(\varepsilon-0)^2}{2\delta^2}}$
简化为：
$f(\varepsilon|\mu = 0,\delta^2) = \frac{1}{\sqrt{2\pi \delta}}e^{-\frac{\varepsilon^2}{2\delta^2}}$

二、最小二乘法MSE

1.误差总似然

$\prod_{i = 0}^nf(\varepsilon_i|0,\delta^2) = \prod_{i =0}^n\frac{1}{\sqrt{2\pi\varepsilon}}e^{-\frac{\varepsilon_i^2}{2\delta^2}}$

$P_w = \prod_{i = 0}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{\varepsilon_i^2}{2\delta^2}}$
根据 $\varepsilon_i = |y_i - W^Tx_i|$ 可以推导出来如下的公式：
$P_w = \prod_{i = 0}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-W^Tx_i)^2}{2\delta^2}}$

2.log函数的基本的运算法则

$log_a(XY) = log_aX + log_aY$
$log_a\frac{X}{Y} = log_a X - log_aY$
$log_aX^n = n * log_aX$
$log_a(X_1,X_2...X_n) = log_aX_1 + log_aX_2 + .. + log_aX_n$
$log_XX^n = n$
$log_a\frac{1}{X} = -log_aX$
$log_a\sqrt[x]{N^y} = \frac{y}{x}log_aN$

3.将累乘问题转换成累加问题

$log_e(P_w) = log_e(\prod_{i = 0}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-W^Tx_i)^2}{2\pi\delta}})$

$=\sum_{i = 0}^n log_e (\frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-W^Tx_i)^2}{2\pi\delta}})$
$=\sum_{i = 0}^{n}(log_e\frac{1}{\sqrt{2\pi\delta}} - \frac{1}{\delta^2}\cdot \frac12(y_i - W^Tx_i)^2)$
其中求最大值的问题可以转换成最小值的问题，也就是求：
$\frac12\sum_{i = 0}^n (y_i - W^Tx_i)^2$
的最小值，L代表Loss，表示损失函数，损失函数越小，最上方的最大似然就越大，可以看出，完成了正规方程的推导