逻辑回归的主要思想:根据现有的数据对分类边界进行建立回归公式,以此进行分类。此处“回归”的意思是对要找到最佳的拟合参数集。
目录
一、逻辑回归是分类算法
Logistic本质上是一个基于条件概率的判别模型(Discriminative Model),首先明确一点就是逻辑回归是用来解决二分类问题的,可以认为它是用回归的思想来解决分类问题。
二、逻辑回归的函数(Sigmoid函数)
首先我们要了解多元线性表达式为,那么写成向量的形式,可以假设有两个列向量W和X,则 就是行向量,还是列向量,则向量相乘 ,行向量和列向量相乘得到的是对位相乘再相加,满足了我们多元线性回归的表达式的要求。
逻辑回归的判别函数是Sigmoid函数,,e是欧拉常数,z是多元线性回归中的,我们记作,即对每个特征的加权求和,所以得到的是。z是一个矩阵,θ是参数列向量(要求的参数),X是样本列向量(给定的数据集)。表示θ的转置。
g(z)函数实现了任意实数到[0,1]的映射,这样我们的数据集([x0,x1,…,xn]),不管是大于1或者小于0,都可以映射到[0,1]区间进行分类。同时hθ(x)输出的是概率值,即是正例的概率。
简单讲,就是在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代入Sigmoid函数中,进而得到一个0~1的的数值,任何大于0.5的数据被分入1类,小于0.5的被分到0类,所有Logistic回归也可以看成是一种概率估计。(这里的0.5不是绝对,可以根据实际业务调整该值)
Sigmoid函数可导:
那么现在问题变成了,最佳回归系数θ如何确定?下面我们就要引入逻辑回归的损失函数。
三、逻辑回归的损失函数
根据sigmoid函数特性,且假设因变量y服从伯努利分布,我们可以得出:
-- ①
--②
上式为在已知样本x和参数θ的情况下,样本x属性为正样本(y=1)和负样本(y=0)的条件概率,同时可知,当概率越接近于1,分类效果越准确。
单样本预测正确的概率公式:
我们将上面的①②公式进行整合,得到单样本预测正确的概率:
上式可知,当预测完全正确,正确概率P值就会最大。其实我们要找的就是一组最佳的θ值,使得概率最大。
全样本预测正确的概率公式:
若想让预测出的结果全部正确的概率最大,根据极大似然估计,就是所有样本预测正确的概率相乘得到的P最大,这里表示为L(θ):
上面连乘的函数不容易计算,那么两边同时取对数,得:
在这里,我们需要找到最佳的一组θ值,使得该函数的值最大,那么就得到了最佳的逻辑回归函数了。
一般我们经常求一个函数的极小值,那么针对上面的,前面加个负号,就可以求极小值:
该函数就是我们所要找的逻辑回归损失函数,又叫交叉熵损失函数。
四、梯度下降法求解损失函数
梯度下降发的思想:要找到函数的最小值,最好的方法就是沿着该函数的负梯度方向探索。
对求偏导,用梯度下降法求最小值,那么求对的偏导:
上述中表示第i个样本的第j个属性的取值。
则θ的更新方式为:
其中x为这个样本的特征值,y为这个样本的真实值,为第i个样本的第j个属性的值,α就是经常说的步长(学习率)。
需要注意的是:逻辑回归对数据不均衡比较敏感(样本数据的正负类数量差距较大),因为逻辑回归损失函数是用极大似然估计进行推导的,那么我们得到的就是所有样本预测正确的概率最大。此时我们可以采用上采样或者下采样去维持数据平衡,减少数据不均衡带来的误差。
五、逻辑回归的优缺点
1、优点:计算代价不高,易于理解和实现;
2、缺点:容易欠拟合,分类精度可能不高;
3、适用数据类型:数值型和标称型数据。
欢迎关注我的公众号!