机器学习数学原理专题——回归模型：损失函数推导

机器白学

已于 2024-11-13 15:22:35 修改

阅读量781

点赞数 7

分类专栏：人工智能与机器学习理论知识文章标签：机器学习笔记人工智能回归

于 2024-04-09 09:10:52 首次发布

本文链接：https://blog.csdn.net/qq_58718853/article/details/137536043

版权

本文详细介绍了线性回归模型的构建过程，包括回归模型的基本形式和代数表示，以及损失函数的推导，特别是最小二乘法和极大似然估计法。文章重点阐述了如何通过这两种方法来估计模型参数，以及误差项的正态分布假设和条件分布的理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、从线性模型开始：回归

1.回归模型

(1)基本形式

线性模型基本表示为 $eq?y%20%3D%20w_%7B1%7Dx_%7B1%7D+w_%7B2%7Dx_%7B2%7D+...+w_%7Bn%7Dx_%7Bn%7D+%5Cepsilon$

其中y为预测变量，在回归问题中可以理解为想要预测的响应变量，如股票未来价格、预测房价、预测个人可能工资等；

x为特征变量，是用于训练模型的核心数据，代表了对问题现实描述的影响因子，如股票价格预测中的股市技术指标、房价影响因素中的房屋面积，楼层数，过往成交价格等、个人工资中个人学历，年龄，性别等。对于现实中的任务，其结果的影响因素可能很多，此处假设存在n个影响因子x；

w为模型参数，可以理解为每个影响因子x对预测值y的重要程度，是权值参数，如股票短期预测中是技术指标更重要，还是宏观因素更重要；影响房价的众多因素中，房屋面积是不是占主要地位；个人工资又是不是大部分由个人学历决定。对于这些问题的回答，将决定对应影响因子前的权值大小。

$eq?%5Cepsilon$ 为误差项，误差项代表了数据的随机性和不可预测性，是数据中的噪音。可能包括测量误差、数据收集过程中的误差，或是模型未能包含的其他变量的影响。

(2)代数形式

线性模型代数表示为 $eq?y%20%3D%20W%5E%7BT%7DX$

其中， $eq?W%20%3D%20%5Cbegin%7Bpmatrix%7D%20w_%7B1%7D%5C%5C%20w_%7B2%7D%5C%5C%20...%5C%5C%20w_%7Bn%7D%5C%5C%20%5Cepsilon%20%5C%5C%20%5Cend%7Bpmatrix%7D$ , $eq?X%20%3D%20%5Cbegin%7Bpmatrix%7D%20x_%7B1%7D%5C%5C%20x_%7B2%7D%5C%5C%20...%5C%5C%20x_%7Bn%7D%5C%5C%201%5C%5C%20%5Cend%7Bpmatrix%7D$

在代数模型中，将误差项加入了特征矩阵中，是为了简化了模型表达，本质上和基本形式是一样的。

2.回归模型损失函数的推导

模型的预测值 $eq?%5Chat%7By%7D$ 和实际样本的观测值 $eq?y$ 。上述构建的线性回归模型将样本的特征变量 $eq?X$ 以权重参数 $eq?W$ 的方式求和，得到模型的预测结果 $eq?%5Chat%7By%7D$ 。实际机器学习中有一个训练模型的过程，此时还需要对预测结果进行评估，这就需要一个“标准答案”，这就是样本的观测实际值 $eq?y$ 。

为了训练回归的模型参数 $eq?W$ ，需要一个度量训练输出 $eq?%5Chat%7By%7D$ 和实际数据 $eq?y$ “差异”的函数，这就是损失函数。损失函数在机器学习中发挥关键作用，就如同我们学习过程中对我们学习现状（做试卷）打分的“老师”一样。

损失函数更像是一个“文科老师”（不同于数学结果只有对错一种评判结果），损失函数的“打分方式”可以有很多，一个好的评分方式对我们学习很重要（比如如果政治主观题只以字数多少作为得分标准显然不合适），因此选择合适的损失函数形式在机器学习过程中很重要。

（1）感性直觉（最小二乘法）

均方误差MSE (Mean Squared Error），是回归任务常用的损失函数。通过回归模型的基本形式可知，模型中存在一个误差项，既是数学模型无法解释实际观测值的部分，也是模型预测值和实际值的差距（欧式距离）。

$eq?%5Cepsilon%20%3Dy-%28%20w_%7B1%7Dx_%7B1%7D+w_%7B2%7Dx_%7B2%7D+...+w_%7Bn%7Dx_%7Bn%7D%29$

$eq?%3Dy%20-%20%5Chat%7By%7D$

误差项 $eq?%5Cepsilon$ 表示观测值和模型预测值的差异，最小二乘法MSE旨在最小化所有误差项的平方和。这个误差就是下图中样本点到预测线的绿色虚线距离，MSE就是要找到一条这样的线，使得所有样本点到线性直线上对应点的距离和最小。

上述内容用数学表示如下。

$eq?MSE%3D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28y_%7Bi%7D-%5Chat%7By_%7Bi%7D%7D%29%5E%7B2%7D$

$eq?min%5C%2C%20%5C%2C%20Loss%28X_%7Bi%7D%2Cy_%7Bi%7D%2CW%29%3Dmin%5C%2C%5C%2C%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28y_%7Bi%7D-W%5E%7BT%7DX_%7Bi%7D%29%5E%7B2%7D$