机器学习算法--线性回归_误差项独立同分布,约掉-CSDN博客

本文链接：https://blog.csdn.net/2401_82661791/article/details/136659666

#前言

从本文开始小林会相继给大家介绍一些有关机器学习的算法，由于本人也是一个新手小白，所以这些内容大家仅作为参考就好。这些基础算法也都是小林从b站上寻找的资源进行自学的，所以大家如果看完本篇及接下来的博客有任何不明白的地方，可以移步b站大学跟着大佬再进行深入的学习。本文仅作为学习笔记，方便自己日后查看，同时也将学习成果分享给大家。

#回归问题概述

首先我们来看一个这样的问题：银行贷款问题

这里我想提出一个问题：决定银行最终是否贷款以及贷款数额的因素是什么？毫无疑问，是贷款人的工资和年龄。这里需要引入几个有关机器学习的概念：标签（特征）和目标。正如上图所示，工资和年龄就是两个数据标签，我们将其定义为x1和x2,而贷款额度是不是就是我们预期希望银行所发放的金额，这里我们将其定义为目标。有了上述的两个概念之后呢，我们可以初步建立起一个公式： $y = x1 +x2$ .但是这个公式所表现出来的不符合上图的实际，应为年龄和工资对于额度目标的影响是不同的，所以我们对公式进行进一步的变化： $y = \theta 1x1+\theta 2x2$ 。此时当我们拥有了这个公式之后，我们可以将上述的变量用一副图表示出来：

但是不知道大家发没发现一个问题，那就是我们的公式是线性的，正如上图的那个平面，无法做到对于所有的点进行拟合，所以我们只能寻求最符合所有点的平面，那么如何实现？

我们将公式进行一个小小的变形：

公式中 $\theta 1$ 和 $\theta 2$ 我们一般称之为权重项，而 $\theta 0$ 是我们为了去得到一个更优的平面而引入的偏置项。但是我们都知道引入一个 $\theta 0$ ，我们的数据就不符合矩阵的形式，运算起来比较麻烦，怎么办？我们在刚刚的贷款图中在引入一个特征 $\theta 0$ ，并且所有样本的值都为1，这是我们为了方便计算而对数据进行的预处理。所以最终我们的公式长这样：

#误差项定义

根据我们最终的得到的公式，我们将x1和x2代入，是不是会得到平面上的一个预测值，但是由于平面无法完全拟合目标，预测值与目标值之间是存在误差的。我们要做的，也正是机器学习所需要学习的，就是通过不断缩小这个误差值（一般我们也叫做损失函数），来使得这个预测值不断逼近目标值。

#误差的独立同分布的意义

这里我们对于误差项的定义如下：误差是独立并且具有相同的分布，并且服从均值为0方差为 $\theta ^{^{2}}$ 的高斯分布。我们需要对以上这个定义作出一定的解释。

独立：各个误差之间相互是独立的，不会受到其他误差的影响。比如张三和李四是好朋友，他们一起去银行贷款，银行不会因为张三的一句话而给李四多贷一点，还是得取决于李四自己的经济实力。

同分布：还是贷款的例子，张三去了建设银行，李四去了工商银行，那我们的研究究竟是针对哪个银行的呢？所以说误差也是一样的，必须属于同一个问题。

均值为0的高斯分布：这两个名词我决定一起来解释比较合适。银行是不是会根据贷款人的情况给有些人多贷一点，而给有些人少贷一点，但是绝对不会给所有人多贷或者给所有人都少贷，这些多贷或者少贷的额度和必须是0，才能保证银行的正常运行。恰好这符合高斯分布曲线，越靠近均值，数据所占的比例越大，比如银行给你多贷100万或者少贷100万的事情几乎不会发生。

#似然函数的引入

我们上面已经说过了误差符合独立同分布的高斯分布，那么我们现在就可以列出高斯分布的公式：

这里面由于我已经有了y（目标值）和 $\varepsilon$ （误差值）以及x（特征数据），现在就是需要求出一个合适的 $\theta$ ，那我们就可以利用上面的公式，将 $\varepsilon$ 用y，x和 $\theta$ 替换掉，就可以得出如下公式：

我们之前说过机器学习的目标是不是找到一个合适的 $\theta$ 使得误差值越小越好，那么我们如何求出这个 $\theta$ 呢？这里我们需要用到似然函数。

正是由于误差值的独立同分布，才可以使用累乘，但是这个公式的运算量也太大了吧。我们随意给m赋一个1000，就得进行1000次乘法计算，那么怎么办？这里我们巧妙的将似然函数给取对数，这样就可以把乘法转换为加法。

但是有人会提出疑问，那么得出的值不就发生改变了？这里我们需要搞清楚，我们要求解的对象是谁？是极大值还是极大值点？很显然是极大值点。虽然取对的操作改变了极大值，但是不会改变极大值点。

#参数求解

我们将上述的公式转变为累加的形式，如下图所示：

这时候需要我们运用一点对数的运算法则，将相乘的形式转变为相加的形式，处理后是这样的：

在上述的公式中，我们将一些常量（针对具体某个问题，m是固定的，那么对于m的累加也就是定值常数）提到整体参数的前面（例如m以及 $1/\sigma ^2$ ）。这时候我们需要再回头思考一下，现在我们要求解的是上述这个整体式子的最大值，也就是让我们的计算结果y越接近目标值，而式子的前半部分是定值，后半部分的恒正，要想求解y的最大值，是不是就需要求解后面部分的最小值。我们将这一部分单独提取出来，作为我们待求解的目标函数，也叫做loss（损失函数）

接下来就是一系列的数学处理过程，我就不多赘述。

但是到这里，我们发现机器学习的过程如何体现？上述的求解思路仅仅是给定数据求参数，并没有体现出机器学习的过程。

#梯度下降

机器学习的过程就体现在对于 $\theta$ 不断优化的过程。前面我们说过现在要求解 $\theta$ 的最小值，这个最小值的求解如何让计算机实现？

假如现在我想要快速下山（用来类比求解 $\theta$ 最小值的过程），那我会选择哪条路？毫无疑问是第三条，因为它最快，而第三条路本质上就是人所处位置的切线斜率。那么这里涉及到一个问题，人的步长多少合适，如果我一次跨一大步，那么直接摔下山是毫无疑问的，所以步长的选择通常较小（0.01或者0.001）。每走一次都需要重新计算所处位置的新切线斜率，而我们需要下山，所以上述过程我们通常叫做沿着梯度下降。

通常对于某一个具体的问题，我们需要求解的 $\theta$ 并不止一个，而根据独立分布的原则，我们需要对每一个 $\theta$ 都进行梯度下降的处理：