最大似然求最优解
上一篇把最大似然估计理解得差不多了,这一篇就记录一下,机器学习中的似然估计
重新理解线性回归
前置知识点:
中⼼极限定理指出,当独⽴随机 变量的数量⾜够⼤时,它们的和会趋近于⾼斯分布。因此,当我们将许多不同的噪声项相加时, 它们的总和会趋近与高斯分布。
⾃然界中的随机变量:⾼斯 分布在⾃然界中⼴泛存在, 例如,测量误差、环境噪声 等。这些随机变量的取值通 常服从⾼斯分布,并且其均值为0。因此,我们可以将噪声项视为模拟这些⾃然界随机变量的⼀种⽅式
线性模型:
注:参数项和我们求最值无关,我们可以在求解式忽视它
上面的过程中,我们可以看到最大似然估计在高斯分布下得到了最小二乘法,真的太巧妙了。
另外,最大似然估计在伯努利分布下,我们得到的结果将会是逻辑回归!如果是在多项分布下,我们得到的则是softmax回归!太神奇了!。等找个机会推导一下。
最小二乘法在线性回归
利用最小二乘法的似然估计来求得,我们线性回归模型的最优参数矩阵!
根据之前讲的,误差我们假设其服从高斯分布,所以我们可以将最小二乘法得到的误差,带入到高斯概率密度函数求出误差最有可能产生这种误差的,一个高斯概率密度函数。它的参数就是我们要求得的最优解
该概率密度函数参数:我们要找的wx,x给定,所以可以利用误差的似然估计来求得我们模型的参数W
上面的这个是推导过程:
到头来求最优参数其实就是在求
这一块。也就是这一块的最小值。这就是最小二乘法的由来!!!!!
这种最小二乘法估计,其实我们就可以认为,假定了误差服从正太分布,认为样本误差的出现是随机的,独立的,使用最大似然估计思想,利用损失函数最小化 MSE 就能求出最优解!所以反过来说,如果我们的数据误差不是互相独立的,或者不是随机出现的,那么就不适合去假设为正太分布,就不能去用正太分布的概率密度函数带入到总似然的函数中,故而就不能用 MSE 作为损失函数去求解最优解了!所以,最小二乘法不是万能的~
中,故而就不能用 MSE 作为损失函数去求解最优解了!所以,最小二乘法不是万能的~
所以,一般我们求最优解都是利用无约束的梯度下降算法!神经网络也不例外!