1.什么是Logistics?
Logistics回归虽然后缀回归,但是不属于回归算法,而是分类算法。该算法通过在样本空间中寻找一个分类超平面,将正负样本分别分到互不相交的两个子空间中。
2、算法公式推导
数据准备:logistics算法需要使用数值型数据,对于标称型数据需要转换为数值型数据,为了加速收敛,通常会对原始数据进行标准化。
它是对感知机算法的一种改良版,感知机算法的模型如下所示:
w为每一个特征的权重值,b为偏置。
Logistics算法在此基础上通过一个sigmoid函数,将取值区间为负无穷到正无穷的距离映射到[0,1]区间,通过指定一个阈值(通常选取0.5),将结果大于或等于0.5的判定为正类,将结果小于0.5的判定为负类。算法模型如下公式:
则有p(1|x)=f(x),p(0|x)=1-p(1|x),这个判定值并不是概率,而只是表示为正类的趋势、可能,因为wx越大,f(x)越趋近于1。sigmoid函数映射后的值并不是均匀的,也就是说x1/x2!=f(x1)/f(x2),通过作图可以看出,这个曲线在0附近变化显著,越趋近两端越平缓。如下图所示,横坐标的数值对应于wx:
Logistics算法将这个值作为概率,通过求似然函数,对似然函数取负对数作为要优化的损失函数。
令π(x)=p(1|x),对于xi怎有如下函数:
将i=1,2,3...,n累乘。