逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。
<一>我们首先讨论二分类的情况:
设有线性拟合方法(这里为样本x的向量化表示):
设样本发生的概率为P(Y=1|x),样本不发生的概率为P(Y=0|x):
一个事件x的几率 Odd, 指的是该事件发生的概率与不发生概率的比值。 则这里事件的对数几率为:
可以看出,在逻辑斯蒂回归中,输出Y=1的对数几率是输入x的线性函数。
我们用极大似然估计法估计模型参数,从而得到逻辑回归模型。似然函数为:
N表示样本的数量。对似然函数进行对数化,得到便于计算的公式:
要使所有训练样本的预测值与实际值之间的误差之和最小(这里使得L(w)最大化)。使用梯度下降法,在经过若干次迭代之后,误差趋于收敛。这样,最终学习到参数w。得到w之后 ,可以来计算预测样本在两个类P(Y=1|x)和P(Y=0|x)上的概率。当样本在其中一个类上的概率大于在另一个类上的概率时(或在某个类上的概率大于0.5时),则该样本属于概率较大的类。
<二>接下来我们考虑多分类的情况:
多分类实际上可以分解为多个二分类,即不断进行二分类。当有K个分类时,我们需要学习到K-1个权值参数。遵循和<一>中二分类一样的形式。具体为:
这里,P(Y=k|x)表示样本x为第k类时的预测概率,相应的参数为第k类的权值参数。
根据<一>,计算第k类别的对数似然函数:
训练时,如果样本x属于第k类,则P(Y=k|x)=1,否则P(Y=k|x)=0。使最大化,这样学到第k分类的参数。依据这种方法,最终学到K-1个类的权值参数。输入某样本x,当第k类的预测概率最大时,则判断该样本属于第k类。
Logistic回归有自身的优缺点:
优点:计算代价不高,易于理解和实现
缺点:容易欠拟合,分类精度可能不高
适用数据类型:数值型和标称型
参考文献:
http://blog.163.com/huai_jing@126/blog/static/1718619832011930826843/
http://blog.csdn.net/armavrdsp/article/details/21614515
http://bluewhale.cc/2016-05-18/logistic-regression.html