1.logistic回归模型
logistic回归是用线性模型解决分类问题的算法
考虑现在有一个样本集合,样本特征有两维,要用一条直线作为这两类的分界线,如下图所示
也就是说logistic算法就是要找到这么一条直线,使得可以对样本进行分类。但是由于是分类问题,所以我们使用方差来度量模型就不合适了,这也正是logistic算法解决的问题。
在这里,我们需要一个函数,可以将线性模型的预测值转换成0/1值,最理想的函数是单位阶跃函数,即
y=0,z<0
y=0.5,z=0
y=1,z>0
即预测值z大于零就判正例,小于零就判反例,等于临界值零则任意判别。
但是这个函数具有不连续不可微等不好的性质,所以我们选择了logistic函数作为单位阶跃函数的替代函数
即
y=11+e−z
直观的来看,logistic函数在z=0附近变化很快,当z很大时,函数变化的很慢。
将 z=wTx 带入上式
然后可以发现 lny1−y=wTx
将y视为x作为正例的可能性,也就是说logistic回归实际上是在用线性模型的预测结果去逼近正例的可能性与反例的可能性的比值的对数
所以可以用极大似然法来估计 w 和
l(w,b)=∑mi=1ln p(yi|