优点
- 实现简单;
- 分类时计算量非常小,速度很快,存储资源低;
缺点
- 容易欠拟合,一般准确度不太高
- 只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分
损失函数
逻辑回归的公式为:
h ( x ) = 1 1 + e − ( w T x + b ) h(x) = \frac{1} {1 + e^{-(w^Tx+b)}} h(x)=1+e−(wTx+b)1
假设有N个样本,样本的标签只有0和1两类,可以用极大似然估计法估计模型参数,从而得到逻辑回归模型
设yi=1的概率为pi,yi=0的概率为1 - pi,那么观测的概率为:
p ( y i ) = p i y i ∗ ( 1 − p i ) 1 − y i p(y_i) = p_i^{y_i} * (1-p_i)^{1-y_i} p(yi)=piyi∗(1−pi)1−yi
可以看到这个公式很巧妙的将0和1两种情况都包括进去,数学真是美妙的东西
概率由逻辑回归的公式求解,那么带进去得到极大似然函数:
∏ i N h ( x i ) y i ∗ ( 1 − h ( x i ) ) 1 − y i \prod_i^N h(x_i)^{y_i} * (1-h(x_i))^{1-y_i} i∏Nh(xi)