最小二乘，交叉熵，极大似然，梯度下降，概率分布，凸优化，正则化

最新推荐文章于 2022-09-03 14:49:58 发布

师太，借个吻

最新推荐文章于 2022-09-03 14:49:58 发布

阅读量310

点赞数

分类专栏：理论学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_42891453/article/details/121168674

版权

理论学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最小二乘，极大似然，交叉熵是三种损失函数，函数里面有很多未知参数，神经网络就是要最小化损失函数，也就是求满足损失函数最小的那些未知参数（比如极大似然估计就是已知观察数据，反去估计概率密度函数中的未知参数），在最小二乘，极大似然，交叉熵这些方法定义出损失函数时，由于未知参数太多，使得单纯利用求导令导数等于零然后去求极值点时间复杂度过高，所通常会用梯度下降法去代替求导令导数等于零的方法去慢慢逼近极值。当这些未知参数有条件限制时，可以转换成条件极值问题，即可以用拉格朗日求极值方法去求解，同样也可以用梯度下降去代替求导等于零去求拉格朗日函数的极值。假设用上面三种方法其中任意一种方法定义出来的损失函数为f（x1，x2，。。。。），x为要求的未知参数，f（x）由于是多变量函数，所以图像为多维空间中的体，在很多情况下求导等于零或梯度下降是找不到最值的（只能找到局部最优解），这里便可以引入凸优化理论，由定义知，一个函数要是凸优化函数，并且变量可行域为凸集时，便是可以求出极值，可以发现这里有两个条件1是损失函数要是凸优化函数2是未知参数可行域要位凸集，而正则化便是规范未知参数可行域的方法，画图易知L1，L2正则化后的可行域都为凸集。至于条件1，神经网络其实就是把一个非凸优化问题中的凸优化因素筛选出来，局部的用凸优化方法去解决，然后通过梯度下降反向传播到隐藏层中调整未知参数，循环多次得到最终的未知参数。

师太，借个吻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最小二乘，交叉熵，极大似然，梯度下降，概率分布，凸优化，正则化

最小二乘，极大似然，交叉熵是三种损失函数，函数里面有很多未知参数，神经网络就是要最小化损失函数，也就是求满足损失函数最小的那些未知参数（比如极大似然估计就是已知观察数据，反去估计概率密度函数中的未知参数），在最小二乘，极大似然，交叉熵这些方法定义出损失函数时，由于未知参数太多，使得单纯利用求导令导数等于零然后去求极值点时间复杂度过高，所通常会用梯度下降法去代替求导令导数等于零的方法去慢慢逼近极值。当这些未知参数有条件限制时，可以转换成条件极值问题，即可以用拉格朗日求极值方法去求解，同样也可以用梯度下降去代替
复制链接

扫一扫

专栏目录