理论学习
师太,借个吻
这个作者很懒,什么都没留下…
展开
-
最小二乘,交叉熵,极大似然,梯度下降,概率分布,凸优化,正则化
最小二乘,极大似然,交叉熵是三种损失函数,函数里面有很多未知参数,神经网络就是要最小化损失函数,也就是求满足损失函数最小的那些未知参数(比如极大似然估计就是已知观察数据,反去估计概率密度函数中的未知参数),在最小二乘,极大似然,交叉熵这些方法定义出损失函数时,由于未知参数太多,使得单纯利用求导令导数等于零然后去求极值点时间复杂度过高,所通常会用梯度下降法去代替求导令导数等于零的方法去慢慢逼近极值。当这些未知参数有条件限制时,可以转换成条件极值问题,即可以用拉格朗日求极值方法去求解,同样也可以用梯度下降去代替原创 2021-11-05 18:44:47 · 345 阅读 · 0 评论 -
一些经典的学习率
首先要了解Momentum概念:借用了物理中的动量概念,它模拟的是物体运动时的惯性,即更新的时候在一定程度上保留之前更新的方向,同时利用当前batch的梯度微调最终的更新方向。这样一来,可以在一定程度上增加稳定性,从而学习地更快,并且还有一定摆脱局部最优的能力。BGD(BatchGradientDescent):会陷入minibatch-loss的奇点SGD(随机梯度下降):不会陷入minibatch-loss的奇点,但走的路径比较曲折(震荡),尤其是batch比较小的情况下。SG..原创 2021-08-25 12:06:39 · 131 阅读 · 1 评论 -
为什么要用sigmoid函数和softmax函数解决分类问题
所谓神经网络解决文类问题可以等价为同时满足两个条件:1:神经网络的概率模型与理想概率模型的各阶矩相等(两个概率模型是否相等)2:P(y|x)的熵最大(自己理解:就是不考虑任何无信息量的因素最公平的分配概率时如何分配)关于第1点:首先可以证明任何一个概率分布可以用正态分布里的期望和期望里x的几次幂(也就是所谓的一阶矩二阶矩等等来表示),这样就可以通过比较矩来比较两个概率模型是否相等。可以在x,y上先设计随机变量(x,y)满足某一事实时X=1否则为0(满足的某一事实需要考虑样本空间中所有可原创 2021-08-25 11:51:44 · 553 阅读 · 0 评论