- 概念:逻辑回归看到回归两字,有的人以为是要回归成一个值,但是逻辑回归是处理二分类的经典算法,逻辑回归的边界可以是非线性的。常用在是否为垃圾邮件、是否患病、金融诈骗、是否为虚假账号、广告点击率等问题上,基本的思想与线性回归类似,但损失函数的定义不一样。为何称之为是经典二分类算法,是因为比较其他复杂的算法(神经网络等),它更简单高效,这也是机器学习处理问题的核心思想:简单高效。所以能用简单的先用简答的,之后再用复杂的。很多时候都是先用逻辑回归尝试一下,也可以在逻辑回归的基础上改进。当然,逻辑回归也可以处理多分类问题。
- sigmoid函数:函数特点是S(x)取值在[0,1], 0.5是阈值。自变量可取值为任意实数。我们将线性回归的预测值,映射到sigmoid函数中,就得到了一个概率值。完成了由一个值转换成概率的分类过程。
3.上述过程可用以下公式表达,g代表sigmoid函数
4.假设解决一个二分类问题,预测为正例的概率为hθ(x),则非正例的概率就是1-hθ(x)。
将上面两个公式结合在一起,当y=1时P=hθ(x);y=0时P=1-hθ(x)
5同样用似然函数跟对数似然函数的思想(跟线性回归方程的思想一致)
6.我们还是要考虑如何让logL(θ)值最大,在机器学习中,遇到梯度上升的问题通常要转换成梯度下降来求极小值,我们将上面的公式变形转换一下,引入J(θ)再加上负号,l(θ)=logL(θ),这样就把上升问题变成下降问题了
7.求偏导计算,xij的意思是:i是第几个样本,j是样本的哪个特征。