目录
5.为什么LR一般不适用均方误差来作为Loss Function
1.定义
逻辑斯谛回归是统计学习中的经典分类方法。
对于一个二分类问题而言:
更简单的写法是:
其中
2.参数的似然函数
对数似然函数:
3.LR的代价函数
最小化代价函数(Cost Function)相当于模型的极大似然估计。
模型训练就是使得训练数据的似然函数最大,于是转化为一个最优化的问题。也可以将最大似然估计理解为损失函数为对数时的经验风险最小化。
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
4.梯度下降的计算
根据梯度下降法可得的更新过程:
5.为什么LR一般不适用均方误差来作为Loss Function
均方误差损失函数一般是非凸函数(non-convex),其在使用梯度下降算法的时候,容易得到局部最优解,而不是全局最优解。因此要选择凸函数(二阶导大于等于0)。
这里的求导可能存在一点问题,参考链接:
6.交叉熵损失函数
为什么交叉熵损失函数是凸函数?
损失函数定义如下
7.逻辑回归是线性模型吗?
逻辑回归是广义的线性模型,就是在线性回归基础上加了一个非线性映射。
8.逻辑回归与线性回归的联系和区别?
联系:逻辑回归是在线性回归上添加一个函数映射得到的。
区别:逻辑回归用来分类,线性回归用来预测(输出实质变量);
线性回归的鲁棒性很差,例如在下图的数据集上建立回归,因最右边噪点的存在,使回归模型在训练集上表现都很差。
10. LR为什么使用sigmoid函数?
11. 逻辑回归怎么实现多分类?
我们已经知道,普通的logistic回归只能针对二分类(Binary Classification)问题,要想实现多个类别的分类,我们必须要改进logistic回归,让其适应多分类问题。
关于这种改进,有两种方式可以做到。
第一种方式是直接根据每个类别,都建立一个二分类器,带有这个类别的样本标记为1,带有其他类别的样本标记为0。假如我们有k个类别,最后我们就得到了k个针对不同标记的普通的logistic分类器。针对一个测试样本,我们需要找到这k个分类函数输出值最大的那一个,即为测试样本的标记:
第二种方式是修改logistic回归的损失函数,让其适应多分类问题。这个损失函数不再笼统地只考虑二分类非1就0的损失,而是具体考虑每个样本标记的损失。这种方法叫做softmax回归,即logistic回归的多分类版本。
12. 逻辑斯谛回归是处理线性问题还是非线性问题?
线性问题
13. 优缺点
优点:实现简单,广泛的应用于工业问题上;分类时计算量非常小,速度很快,存储资源低;便利的观测样本概率分数;对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题。
缺点:当特征空间很大时,逻辑回归的性能不是很好;容易欠拟合,一般准确度不太高
不能很好地处理大量多类特征或变量;只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;对于非线性特征,需要进行转换。
表达能力不强,无法进行特征交叉。
适用场景:LR同样是很多分类算法的基础组件,它的好处是输出值自然地落在0到1之间,并且有概率意义。因为它本质上是一个线性的分类器,所以处理不好特征之间相关的情况。虽然效果一般,却胜在模型清晰,背后的概率学经得住推敲。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。
14. 在深度学习模型流行之前,逻辑回归在搜广推应用广泛的原因?
- 数学含义上的支撑:逻辑回归作为广义线性模型的一种,它的假设是因变量 y 服从伯努利分布(0-1分布)。那么在 CTR 预估这个问题上,“点击” 事件是否发生就是模型的因变量而用户是否点击广告是一个经典的掷偏心硬币问题(点击/不点击的概率)。因此,CTR 模型的因变量显然应该服从伯努利分布。所以,采用逻辑回归作为 CTR 模型是符合 “点击” 这一事件的物理意义的。
- 可解释性强:使用各特征的加权和是为了综合不同特征对 CTR 的影响,而不同特征的重要程度不一样,所以为不同特征指定不同的权重,代表不同特征的重要程度。(权重 = 重要性)最后,通过 sigmoid 函数,使其值能够映射到 0~1区间,正好符合CTR的物理意义。(sigmoid使 和 映射成 概率。模型具有极强的可解释性。算法工程师可以轻易地根据权重的不同解释哪些特征比较重要,在CTR 模型的预测有偏差时定位是哪些因素影响了最后的结果。在与负责运营、产品的同事合作时,也便于给出可解释的原因,有效降低沟通成本。
- 工程化的需要:逻辑回归模型易于并行化、模型简单、训练开销小。