logistic回归
logistic回归实现原理:在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代入Sigmoid函数中,进而得到一个范围在0~1之间的数值。任何大于0.5的数据被分为A类,小于0.5的数据被分为B类。
Sigmoid函数
是一种阶跃函数。当x为0 时,Sigmoid函数值为0.5,。随着x的增长,对应的Sigmoid值将逼近于1;随着x的减小,Sigmoid值将逼近于0。Sigmoid函数的具体公式为:。
基于最优化方法的最佳回归系数确定
Sigmoid函数的输入记为z,由下面公式得出,表示将这两个数值向量对应元素相乘然后全部加起来即得到z值。其中x是分类器的输入数据,w就是要求的最佳参数(系数)。
梯度上升法基于的思想是:要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。则函数f(x,y)的梯度记为,梯度算子总是指向函数值增长最快的方向。步长记为a,则梯度上升法的迭代公式为:,该公式将一直被迭代执行,直至达到某个停止条件为止。
梯度上升法的伪代码:
每个回归系数初始化为1;
重复R次:
计算整个数据集的梯度 使用alpha x gr
adient更新回归系数的向量
返回回归系数
随机梯度上升算法
一次仅用一个样本点来更新回归系数。
随机梯度上升算法的伪代码:
所有回归系数初始化为1
对数据集中每个样本
计算该样本的梯度
使用alpha x gradient更新回归系数值
返回回归系数值
logistic回归优缺点
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
适用数据类型:数值型和标称型数据。