对数回归就是逻辑斯蒂回归,log
逻辑斯蒂回归使用sigmod函数:
逻辑斯蒂回归的损失函数为什么选择使用最大似然函数的方式?这就和最大似然估计的定义有关了,用参数估计的方式来使得出现当前情况的概率最大。并且这个不是损失函数,就是参数估计。梯度下降方法使得误差最小,注意逻辑斯蒂回归的代价函数是和线性回归不同的。为什么选择特殊这个代价函数,其实都是从似然回归得来的。
逻辑斯蒂回归最大化似然函数:
,其实就是最小化交叉熵:,Softmax的损失函数也是对应的;
逻辑斯蒂回归代价函数的由来:
的值可看成结果取1的概率,即:
,因此y取0的概率为:
所以y的概率密度为:
;根据y的取值分情况讨论而来的结果;
因此似然函数:
,对求log,则有:
https://www.cnblogs.com/ericxing/p/3844383.html?utm_source=tuicool&utm_medium=referral
http://blog.csdn.net/star_liux/article/details/39666737
于是,随机梯度上升法迭代算法为:
repeat until convergence{
for i = 1 to m{
(15)
}
}
回归算法是一种通过最小化预测值与实际结果值之间的差距,而得到输入特征之间的最佳组合方式的一类算法。对于连续值预测有线性回归等,而对于离散值/类别预测,我们也可以把逻辑回归等也视作回归算法的一种。
线性回归和逻辑斯蒂回归的参数学习都具有同样的形式:
线性回归与逻辑回归是机器学习中比较基础又很常用的内容。线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题,输出的属于某个类别的概率,工业界经常会用逻辑回归来做排序。在SVM、GBDT、AdaBoost算法中都有涉及逻辑回归,回归中的损失函数、梯度下降、过拟合等知识点也经常是面试考察的基础问题.
SGD:随机梯度下降,随机取一个样本求得梯度,然后使用这个梯度更新参数:虽然有噪声,但是噪声可以避免过拟合。
批量梯度下降:一个小batch的梯度平均,来更新这个梯度;