首先从sigmoid函数入手:
它有一个很好的性质,后面会用到:
然后对二分类问题取对数似然函数,要求它的最大值,也就是求它的负数的最小值,转换成凸函数由梯度下降法求解,这里也可以看成是交叉熵损失函数:
得到损失函数后,让它对每个参数求偏导得到梯度方向;
最后根据得到的梯度方向以一定的学习率更新各个参数。
Reference:
https://blog.csdn.net/tangyudi/article/details/80131307
首先从sigmoid函数入手:
它有一个很好的性质,后面会用到:
然后对二分类问题取对数似然函数,要求它的最大值,也就是求它的负数的最小值,转换成凸函数由梯度下降法求解,这里也可以看成是交叉熵损失函数:
得到损失函数后,让它对每个参数求偏导得到梯度方向;
最后根据得到的梯度方向以一定的学习率更新各个参数。
Reference:
https://blog.csdn.net/tangyudi/article/details/80131307