一、 logistic回归概念
logistic回归是一种广义线性回归分析模型,常用于数据挖掘。Logistic回归是一种分类算法,在某些时刻,存在一些预测结果超出(0,1)范围的问题,但是对于概率问题又要求结果在(0,1)
范围内,通过设置上,下限来去除超过1或小于0的可能,但是你会发现,线性回归的方法会使得大于1的部分会变成一样的,所有小于0的也会变成一样的,所以线性回归不适用于这种情况,由此logistic回归得以运用。
二、 logistic回归推导
1、 logistic回归是在线性回归的基础上添加了一个sigmoid函数。
2、 Sigmoid函数是一个S型函数,常常被用作神经网络的阈值函数,将变量映射到0,1之间。
Sigmoid函数公式:
对x的导数可以表示为:
其图像为:
Logistic回归将sigmoid函数中的x变量取为 ,让本来服从连续性随机变量的分布函数,适用于二项分布。如下
PS:exp(f(x))代表e的f(x)次方。
3、 在训练时需要采用新的损失函数,如果使用之前的损失函数,即最大似然估计,会涉及到数的连乘问题,其学习速率会很慢。此时我们需要一个对数形式的损失函数来将其转化为加减法运算,提高学习速率。
对数代价函数:
方括号内的为最大似然估计。
4.为了使其不至于过拟合,同时我们加入了L2 regularization。
L2正规化公式:
机器学习通过修改theta来减小误差,但是非线性越强的参数,修改的越多就会是的方程更曲折,导致过拟合,反而不适合运用,L2正规化则是用来限制非线性强的参数的修改。
三、 logistic回归应用
logistic回归是一个分类函数,我们可以将其运用到:
- 个人信用评估:贷款的历史记录、工作情况等因素,来预测申请人的贷款风险。
- 关于一个人的运动情况的预测:工作时间、睡眠时间、一天中的行走时间等来分析一个人的运动是否达标。
四、 logistic回归学习总结
- logistic回归是一个分类函数,它通过将连续性随机变量转化成简单的0/1分布,来实现对某些线性回归做不到的分类。
- logistic回归是对线性回归的改进,相应的误差函数也会有相应的变化,误差函数会取为对数形式。
- logistic回归在数据挖掘上的运用,更有利于数据的特征提取和分析。
希望各位大神批评指正!