1.简单介绍一下逻辑回归
逻辑回归解决分类问题而不是回归问题(回归问题用于预测),之所以名字中带一个回归是因为决策边界那个假定的是一个满足线性回归的方程,所以取名为逻辑回归。再说回逻辑回归,通过引入一个满足线性回归的决策边界,将其代入非线性变换的sigmoid函数中,将结果映射到【0,1】之间,通过设置阈值进行分类,比如大于0.5的是正样本,小于0.5的就是负样本
2.sigmoid函数
结果在[0,1]之间。
3.LR的假设函数
4.LR的损失函数
建立在极大似然估计的背景下。极大似然估计是一个求最大的问题,损失函数是一个求最小的问题。
5.LR的优缺点
优点:以概率形式输出结果,训练快、模型简单
缺点:两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期
6.LR为什么基于极大似然求解
损失函数除了平方损失函数还有对数损失函数,极大似然函数取对数等同于对数损失函数。不选用平方损失函数是因为sigmoid在其定义域内的梯度都不大于0.25,训练会非常慢。
7.逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎样的影响?
如果损失函数能收敛,那不会有很大的影响。但是训练过程中还是去掉高度相关的特征比较好,这样可以提高训练的速度。