logistic回归

logistic模型

解决二分类问题的回归方法,因变量是 0-1 随机变量。希望连接函数取值为 [0,1] ,其输出代表因变量取 1 的概率,当特征的线性组合经过连接函数的作用后大于 0.5 则看做 1 ,小于 0.5 看做 0 。 logistic 函数(也称 sigmoid 函数)满足这一要求:

我们令回归方程为

\textup{E}(Y)=\textup{P}(Y=1)=\frac{1}{1+e^{-(\vec{\beta}'\vec{x}+\beta_0)}}

等价变形可得

\textup{In}\frac{\textup{E}(Y)}{1-\textup{E}(Y)}=\vec{\beta}'\vec{x}+\beta_0

这里因变量应当看做 0-1 随机变量,期望表示取 1 的概率。

似然函数

根据上式可得

\left\{\begin{matrix} \textup{P}(Y=1)=\frac{1}{1+e^{-(\vec{\beta}'\vec{x}+\beta_0)}}\\ \textup{P}(Y=0)=\frac{e^{-(\vec{\beta}'\vec{x}+\beta_0)}}{1+e^{-(\vec{\beta}'\vec{x}+\beta_0)}} \end{matrix}\right.

\textup{P}_{Y}(y):=\textup{P}(Y=y)=\textup{P}(Y=0)^{1-y}\textup{P}(Y=1)^{y}

可得因变量的对数似然函数

\textup{LL}(\vec{\beta},\beta_0)=\sum\limits_{i=1}^{n}\textup{In}\textup{P}_{Y}(y_i)=\sum\limits_{i=1}^{n}\textup{In}[(\frac{e^{-(\vec{\beta}'\vec{x}_i+\beta_0)}}{1+e^{-(\vec{\beta}'\vec{x}_i+\beta_0)}})^{1-y_i}(\frac{1}{1+e^{-(\vec{\beta}'\vec{x}_i+\beta_0)}})^{y_i}]

注意这就是交叉熵损失函数。对上式进行整理可得

\textup{LL}(\vec{\beta},\beta_0)=\sum\limits_{i=1}^{n}[(y_i-1)(\vec{\beta}'\vec{x}_i+\beta_0)-\textup{In}(1+e^{-(\vec{\beta}'\vec{x}_i+\beta_0)})],

取负号后用梯度下降法求最小值。

多分类方法

假设有 M 个类别则有两种方法进行回归。

 1 . 训练 M 个 logistic 回归模型,每个模型预测因变量取第 i 类的概率,选取预测值最大的那一类作为类别预测值。即多分类中的一对其余方法。

 2 . 自变量方程部分仍然是上面的线性组合形式,但是因变量取某值的概率不再是用 logistic 函数对自变量线性组合进行变换,而是将线性组合部分用 softmax 函数来变换,然后带入似然函数中求解。

系数和预测值的评价指标

优势比(OR 值):优势比 exp(beta_i) 表示自变量 x_i 增加一个单位会令 p/(1-p) 增加多少倍。OR 值取值范围是正实数,大于 1 表示正作用,小于 1 表示负作用,等于 1 没有影响。

准确率:预测正确的样本量占总样本量的比例。准确率是对模型预测能力的度量,但是实际问题中我们可能更关注正例的预测准确率,而样本不均衡时准确率可能不能反映出正例预测效果,如样本中正例占比 5% ,反例占比 95% ,假如反例全部预测正确而正例全部预测错误,那准确率仍然有 95% 。

精准率:预测为正例的样本中预测正确的比例。

灵敏度:正例被正确预测的比例,又称召回率。注意精准率和召回率一个增大另一个就会减小。

特异度:反例被正确预测的比例。

ROC 曲线:横轴是 1 - 特异度,纵轴是灵敏度。我们希望灵敏度和特异度都越大越好,因此ROC 曲线越靠近左上角越好。反映模型区分正负样本的能力。

AUC 值ROC 曲线下方的面积,越大越好。由于乱猜的情况下灵敏度和特异度都约为 50% ,因此 ROC 曲线在直线 y = x 附近,即AUC 值最小为 0.5 ,其横轴纵轴范围都是 [0,1] ,因此最大为 1 。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值