逻辑回归算法推理与实现

本文详细解读逻辑回归,包括OR比率的计算、Logit函数与Sigmoid函数的转换,以及如何通过交叉熵理解模型评估。通过实例演示了概率、odds和log-odds的关系,以及如何用Python实现预测与系数估计。
摘要由CSDN通过智能技术生成

Overview

逻辑回归通常用于分类算法,例如预测某事是 true 还是 false(二元分类)。例如,对电子邮件进行分类,该算法将使用电子邮件中的单词作为特征,并据此预测电子邮件是否为垃圾邮件。用数学来讲就是指,假设因变量是 Y,而自变量集是 X,那么逻辑回归将预测因变量 P ( Y = 1 ) P(Y=1) P(Y=1) 作为自变量集 X 的函数。

image

逻辑回归性能在线性分类中是最好的,其核心为基于样本属于某个类别的概率。这里的概率必须是连续的并且在 (0, 1) 之间(有界)。它依赖于阈值函数来做出称为 SigmoidLogistic 函数决定的。

学好逻辑回归,需要了解逻辑回归的概念、优势比 (OR) 、Logit 函数、Sigmoid 函数、 Logistic 函数及交叉熵或Log Loss

Prerequisite

odds ratio

explain

odds ratio是预测变量的影响。优势比取决于预测变量是分类变量还是连续变量。

  • 连续预测变量: O R > 1 OR > 1 OR>1 表示,随着预测变量的增加,事件发生的可能性增加。 O R < 1 OR < 1 OR<1 表示随着预测变量的增加,事件发生的可能性较小。
  • 分类预测变量:事件发生在预测变量的 2 个不同级别的几率;如 A,B, O R > 1 OR > 1 OR>1 表示事件在 A 级别的可能性更大。 O R < 1 OR<1 OR<1 表示事件更低的可能是在A。

例如,假设 X 是受影响的概率,Y 是不受影响的概率,则 O R = X Y OR= \frac{X}{Y} OR=YX ,那么 O R = P ( 1 − P ) OR = \frac{P}{(1-P)} OR=(1P)P ,P是事件的概率。

让概率的范围为 [0,1] ,假设 P ( s u c c e s s ) = 0.8 P(success)=0.8 P(success)=0.8 Q ( f a i l u r e ) = 0.2 Q(failure) = 0.2 Q(failure)=0.2 O R OR OR 则是 成功概率和失败概率的比值,如: O ( s u c c e s s ) = P Q = 0.8 0.2 = 4 O(success)=\frac{P}{Q} = \frac{0.8}{0.2} = 4 O(success)=QP=0.20.8=4 , O ( f a i l u r e ) = Q P = 0.2 0.8 = 0.25 O(failure)=\frac{Q}{P} = \frac{0.2}{0.8} = 0.25 O(failure)=PQ=0.80.2=0.25

odds和probability 的区别
  • probability 表示在多次实验中,看到改事件的几率,位于 [0,1] 之间

  • odds 表示 ( 事 件 发 生 的 概 率 ) ( 事 件 不 会 发 生 的 概 率 ) \frac{(事件发生的概率)}{(事件不会发生的概率)} ()() 的比率,位于 [0,∞]

例如赛马,一匹马跑 100 场比赛,赢了 80 场,那么获胜的概率是 80 100 = 0.80 = 80 % \frac{80}{100} = 0.80 = 80\% 10080=0.80=80% ,获胜的几率是 80 20 = 4 : 1 \frac{80}{20}=4:1 2080=4:1

总结:probability 和 odds 之间的主要区别:

  • “odds”用于描述是否有可能发生事件。相反,probability决定了事件发生的可能性,即事件发生的频率。
  • odds以比例表示,probability以百分比形式或小数表示。
  • odds通常从 0 ~ ∞ ,其中0定义事件发生的可能性, 表示发生的可能性。相反,probability 介于 0~1之间。因此,probability越接近于0,不发生的可能性就越大,越接近于1,发生的可能性就越高。

Reference

The Difference Between “Probability” and “Odds”

通过示例陈述公式

假设一个体校的录取率中,10 个男生中有 7 个被录取,而10 个女生中有3个被录取。找出男生被录取的概率?

那么通过已知条件,设 P 为录取概率,Q则为未被录取的概率,那么

  • 男生被录取的概率为:
    • P = 7 10 = 0.7 P=\frac{7}{10} = 0.7 P=107=0.7
    • Q = 1 − 0.7 = 0.3 Q=1-0.7 = 0.3 Q=10.7=0.3
  • 女生被录取的概率为:
    • P = 3 10 = 0.3 P=\frac{3}{10}=0.3 P=103=0.3
    • Q = 1 − 0.3 = 0.7 Q=1-0.3=0.7 Q=10.3=0.7
  • 录取优势比:
    • O R ( b o y ) = 0.7 0.3 = 2.33 OR(boy)=\frac{0.7}{0.3}=2.33 OR(boy)=0.30.7=2.33
    • O R ( G r i l ) = 0.3 0.7 = 0.42 OR(Gril) = \frac{0.3}{0.7}=0.42 OR(Gril)=0.70.3=0.42

因此,一个男生被录取的几率为 O R = 2.33 0.42 = 5.44 OR=\frac{2.33}{0.42}=5.44 OR=0.422.33=5.44

Logit 函数

logit函数是Odd Ratio 的对数 logarithm , 给出 0~1 范围内的输入,然后将它们转换为整个实数范围内的值。如:假设P,则 P ( 1 − P ) \frac{P}{(1-P)} (1P)P 为对应的OR;OR 的 logit 的公式为: l o g g i t ( P ) = l o g ( o d d s ) = l o g ( P 1 − P ) loggit(P) = log(odds) = log(\frac{P}{1-P}) loggit(P)=log(odds)=log(1P

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Hermokrates

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值