其他类似
极大似然估计
机器学习里的损失函数,其推导是这样来的,以线性回归为例,y=wx+b+&,设&为残差(预测值和真实值之间的差距)。&服从一个分布,线性回归的误差服从正态分布,概率密度相乘得到似然函数,对似然函数求导数,导数为0的点,就是最大值的点。
如何理解概率密度相乘得到似然函数?理解概率密度函数 - 知乎
第一个事件发生的概率是p1,第二个事件发生的概率是p2,两个事件同时发生的概率就是p1*p2。
交叉熵损失
看一下小红书里的面经,如何从线性回归导出的
机器学习——线性回归的原理,推导过程,源码,评价 - Baby-Lily - 博客园
似然函数跟交叉熵
https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0
似然函数
在统计学中,“似然性”和“概率”(或然性)有明确的区分:概率,用于在已知一些参数的情况下,预测接下来在观测上所得到的结果;似然性,则是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值,也就是说已观察到某事件后,对相关参数进行猜测。
荷叶损失
梯度下降
线性回归
机器学习——线性回归的原理,推导过程,源码,评价 - Baby-Lily - 博客园
lr
线性模型之逻辑回归(LR)(原理、公式推导、模型对比、常见面试点) - debugger.wiki - debugger.wiki
svm损失函数
理解SVM损失函数_我是阿尔卑斯狗的博客-CSDN博客_svm 损失函数
梯度下降原理
李宏毅机器学习笔记2:Gradient Descent(附带详细的原理推导过程) - 控球强迫症 - 博客园
CS231n 学习笔记(4)——神经网络 part4 :BP算法与链式法则_皓月如我的博客-CSDN博客_神经网络的链式法则
DL之BP:神经网络算法简介之BP算法简介(链式法则/计算图解释)、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客
梯度下降的可视化解释(Adam,AdaGrad,Momentum,RMSProp) - 腾讯云开发者社区-腾讯云
三种梯度下降法
梯度消失/梯度爆炸
出现梯度消失与梯度爆炸的原因以及解决方案 - 控球强迫症 - 博客园
深度学习优化方法
深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam) - 知乎
Adam那么棒,为什么还对SGD念念不忘 | 吴良超的学习笔记
神经网络和深度学习—优化算法 | MuMaXu's Blog
sgd(随机梯度下降)是最基础的梯度下降方法,它的缺点是:
为了解决这些缺点,1是加动量,2是可变学习率。
Deep Learning 最优化方法之AdaGrad - 知乎