机器学习数学原理专题——回归模型:损失函数推导

本文详细介绍了线性回归模型的构建过程,包括回归模型的基本形式和代数表示,以及损失函数的推导,特别是最小二乘法和极大似然估计法。文章重点阐述了如何通过这两种方法来估计模型参数,以及误差项的正态分布假设和条件分布的理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、从线性模型开始:回归

1.回归模型

        (1)基本形式

        (2)代数形式

2.回归模型损失函数的推导

     (1)感性直觉(最小二乘法)

      (2)理性推导(极大似然估计法)


一、从线性模型开始:回归


1.回归模型

        (1)基本形式

              线性模型基本表示为    eq?y%20%3D%20w_%7B1%7Dx_%7B1%7D+w_%7B2%7Dx_%7B2%7D+...+w_%7Bn%7Dx_%7Bn%7D+%5Cepsilon

        其中y为预测变量,在回归问题中可以理解为想要预测的响应变量,如股票未来价格、预测房价、预测个人可能工资等;

       x为特征变量,是用于训练模型的核心数据,代表了对问题现实描述的影响因子,如股票价格预测中的股市技术指标、房价影响因素中的房屋面积,楼层数,过往成交价格等、个人工资中个人学历,年龄,性别等。对于现实中的任务,其结果的影响因素可能很多,此处假设存在n个影响因子x

      w为模型参数,可以理解为每个影响因子x对预测值y的重要程度,是权值参数,如股票短期预测中是技术指标更重要,还是宏观因素更重要;影响房价的众多因素中,房屋面积是不是占主要地位;个人工资又是不是大部分由个人学历决定。对于这些问题的回答,将决定对应影响因子前的权值大小。

      eq?%5Cepsilon为误差项,误差项代表了数据的随机性和不可预测性,是数据中的噪音。可能包括测量误差、数据收集过程中的误差,或是模型未能包含的其他变量的影响。

        (2)代数形式

             线性模型代数表示为                  eq?y%20%3D%20W%5E%7BT%7DX   

                      其中,           eq?W%20%3D%20%5Cbegin%7Bpmatrix%7D%20w_%7B1%7D%5C%5C%20w_%7B2%7D%5C%5C%20...%5C%5C%20w_%7Bn%7D%5C%5C%20%5Cepsilon%20%5C%5C%20%5Cend%7Bpmatrix%7D        , eq?X%20%3D%20%5Cbegin%7Bpmatrix%7D%20x_%7B1%7D%5C%5C%20x_%7B2%7D%5C%5C%20...%5C%5C%20x_%7Bn%7D%5C%5C%201%5C%5C%20%5Cend%7Bpmatrix%7D

            在代数模型中,将误差项加入了特征矩阵中,是为了简化了模型表达,本质上和基本形式是一样的。

2.回归模型损失函数的推导

        模型的预测值 eq?%5Chat%7By%7D 和实际样本的观测值 eq?y。上述构建的线性回归模型将样本的特征变量 eq?X 以权重参数 eq?W 的方式求和,得到模型的预测结果 eq?%5Chat%7By%7D 。实际机器学习中有一个训练模型的过程,此时还需要对预测结果进行评估,这就需要一个“标准答案”,这就是样本的观测实际值 eq?y

        为了训练回归的模型参数eq?W,需要一个度量训练输出 eq?%5Chat%7By%7D 和实际数据 eq?y  “差异”的函数,这就是损失函数。损失函数在机器学习中发挥关键作用,就如同我们学习过程中对我们学习现状(做试卷)打分的“老师”一样。

        损失函数更像是一个“文科老师”(不同于数学结果只有对错一种评判结果),损失函数的“打分方式”可以有很多,一个好的评分方式对我们学习很重要(比如如果政治主观题只以字数多少作为得分标准显然不合适),因此选择合适的损失函数形式在机器学习过程中很重要

     (1)感性直觉(最小二乘法)

         均方误差MSE (Mean Squared Error),是回归任务常用的损失函数。通过回归模型的基本形式可知,模型中存在一个误差项,既是数学模型无法解释实际观测值的部分,也是模型预测值和实际值的差距(欧式距离)。

                                   eq?%5Cepsilon%20%3Dy-%28%20w_%7B1%7Dx_%7B1%7D+w_%7B2%7Dx_%7B2%7D+...+w_%7Bn%7Dx_%7Bn%7D%29

                                      eq?%3Dy%20-%20%5Chat%7By%7D

       误差项eq?%5Cepsilon表示观测值和模型预测值的差异,最小二乘法MSE旨在最小化所有误差项的平方和。这个误差就是下图中样本点到预测线的绿色虚线距离,MSE就是要找到一条这样的线,使得所有样本点到线性直线上对应点的距离和最小。

5df3404580d94d08808ab63f62df220e.jpeg

       上述内容用数学表示如下。

                                                       eq?MSE%3D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28y_%7Bi%7D-%5Chat%7By_%7Bi%7D%7D%29%5E%7B2%7D

                           eq?min%5C%2C%20%5C%2C%20Loss%28X_%7Bi%7D%2Cy_%7Bi%7D%2CW%29%3Dmin%5C%2C%5C%2C%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28y_%7Bi%7D-W%5E%7BT%7DX_%7Bi%7D%29%5E%7B2%7D

       在损失函数eq?Loss%28X_%7Bi%7D%2Cy_%7Bi%7D%2CW%29输入的所有变量中,eq?X_i%2Cy_i 都为观测固定,只有参数 eq?W 可变。取平方是为了防止数值的正负相消。

       在实际中,损失函数作为度量模型表现的测度,更关心的是相对值,而不是绝对大小。因此常常对上述所有样本的和再取平均值。下式中 eq?N 是总共样本的个数。

                             eq?min%5C%2C%20%5C%2C%20Loss%3Dmin%5C%2C%5C%2C%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28y_%7Bi%7D-%5Chat%7By_%7Bi%7D%7D%29%5E%7B2%7D

       下图展示了找到最优曲线的一种过程,可以看到和样本点“拟合”程度最高的红色曲线,对应的损失函数MSE取值也最小。因此最小化损失函数以找到最优曲线的方法,至少看上去是十分合理有效的。

1e22bcfec96e4b2ea4efc23df5ebd16f.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值