1.线性回归和逻辑回归区别
两者都属于广义线性模型。
线性回归优化目标函数是最小二乘法,逻辑回归是最大似然估计。
逻辑回归只是在线性回归的基础上,将加权和通过sigmoid函数,映射到0-1范围空间。
线性回归在整个实数范围内进行预测,敏感度相同,分类范围需要在【0,1】。二逻辑回归是一种减小预测范围,将预测值限定为[0,1]之间的一种回归模型,逻辑曲线在z=0时十分敏感。
2.逻辑回归可以处理非线性问题吗
LR本质上是线性模型,用于非线性问题时,需要定义一个非线性映射。但计算复杂度很高(每个点都参与计算)
3.LR原理 与 参数估计
原理:
是分类模型,输出y=1的对数几率是输入x的线性函数表示的模型,直接对分类的可能性进行建模,并不是对分类的结果进行建模。LR是在线性回归的基础上,把特征进行线性组合,再把组合的结果通过一层sigmoid函数映射为结果是0或1的概率。
首先给出logistic分布。对称点(u, 1/2),二项LR分布表示。统计学习方法P78
参数估计:极大似然估计法。统计学习p79
为什么极大似然函数估计:
如果用最小二乘法,目标函数就是差值的平方和,是非凸的,不容易求解,很容易陷入到局部最优。
如果用最大似然估计,目标函数就是对数似然函数,是关于(w,b)的高阶连续可导凸函数,可以方便通过一些凸优化算法求解,比如梯度下降法、牛顿法等。(使所有样本预测到对应分类的整体概率最大化)
逻辑回归的求解:(梯度下降法)
4.logistic回归梯度推导
以对数似然函数为目标函数的最优化问题。梯度下降法推导公式
(其他还有拟牛顿法,迭代尺度法)
5.LR的正则化
在优化目标中加入正则化项,通过政法过大的参数来避免过拟合。
p = 1或2
6.LR的缺点
容易欠拟合,分类精度不高;数据特征有缺失或者特征空间很大时表现不太好。
一般对真实数据拟合效果没有很好;
逻辑回归的运算与特征维度有很大的关系,如果特征维度过大,训练速度会受到影响
在不引入其他技巧情况下只能处理线性数据,引入softmax后可以进行多分类。
无法处理数据不平衡的问题
7.损失函数
J(w) = -1/N*L(w) L(w)为对数似然函数
8.LR与最大熵模型maxEnt
最大熵原理:学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。
LR是最大熵对应于二类回归时的特殊情况。
9.梯度下降法(lr的优化)
求解无约束最优化问题的一种方法,一般负梯度方向是函数下降最快的方向。
迭代的每一步,以负梯度方向更新x的值。
目标函数是凸函数时,梯度下降法能找到全局最优解,一般情况下不保证是全局最优解,收敛速度也未必是很快的。
随机梯度下降法:每轮不是对所有数据计算梯度,而是每次随机选取一个数据计算梯度,计算差值然后进行m次。