逻辑回归可以看做是被sigmoid进行归一化的线性函数。
这里首先规定,向量x是分类器的输入数据,向量
就是我们要找到的最佳参数。
- sigmoid函数的输入:
- 预测函数(其实就是概率值):(sigmoid函数)
注意:多分类的预测函数为:(softmax函数)
- 二分类任务: 分类对应的概率为
损失函数为:
利用极大似然函数进行求解,对应似然函数为:
对数似然函数为:
下面参数更新的求解就是在原有的对数似然函数上乘上了-1/m,由于是负数,所以也由梯度上升转换到了梯度下降),对数似然函数乘上了-1/m之后,对这个新的式子求偏导。
- 参数更新:
计算过程:
y=1的概率为:
这里θ是模型参数,也就是回归系数,σ是sigmoid函数。实际上这个函数是由下面的对数几率(也就是x属于正类的可能性和负类的可能性的比值的对数)变换得到的:
所以说上面的logistic回归就是一个线性分类模型,它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间。
似然函数:
对数似然函数:
对对数似然函数进行求导,看导数为0的时候可不可以解出来,也就是有没有解析解
然后我们令该导数为0,你会很失望的发现,它无法解析求解。借助迭代进行求最优解。
梯度下降(gradient descent)
Gradient descent 又叫 steepest descent,是利用一阶的梯度信息找到函数局部最优解的一种方法,也是机器学习里面最简单最常用的一种优化方法。它的思想很简单,和我开篇说的那样,要找最小值,只需要每一步都往下走(也就是每一步都可以让代价函数小一点),然后不断的走,那肯定能走到最小值的地方。