一、逻辑回归
逻辑回归通俗的理解就是,对已知类别的数据进行学习之后,对新得到的数据判断其是属于哪一类的。
eg:对垃圾邮件和非垃圾邮件进行分类,肿瘤是恶性还是良性等等。
1.为什么要用逻辑回归:
对于肿瘤的例子:
在外面不考虑最右边的样本的时候我们拟合的线性回归的函数(红色)的阈值可以用,在0.5左右,但是当包含最右边样本的时候,所拟合的函数(蓝色)出现较大偏差。所以像这样的问题就不适合用线性回归而要用逻辑回归。
2.假设函数
当z很大时,g(z)就接近1;z很小时,就接近0.这就对应两种分类,属于该类(p)和不属于该类 (1-p)。
3.决策边界
决策边界通俗点就是两种类别的分界线。看图:
eg:
洋红色和蓝色的线都是决策边界。而表示他们的函数就是式(4)
4.代价函数
和线性回归一样,逻辑回归也有代价函数,也就是要优化的目标
加上log主要是为了使他成为凸函数,可以防止由多个局部最优解。
但是这里有两个式子算起来就不方便,所以合并之后就是最终的代价函数。
式(5)式单个数据的代价,那所有的呢?即求和在求平均值。
5.梯度下降
梯度下降也是类似的
重复执行,到他收敛,就是我们要求的向量θ
虽然代价函数很复杂,但是其求梯度下降的方式和线性回归一样的。
二、多元分类问题
多种类别分类问题其实就是把每一类当作y=1的类别,剩余的都是=0。