🚀 优质资源分享 🚀
学习路线指引(点击解锁) | 知识定位 | 人群定位 |
---|---|---|
🧡 Python实战微信订餐小程序 🧡 | 进阶级 | 本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。 |
💛Python量化交易实战💛 | 入门级 | 手把手带你打造一个易扩展、更安全、效率更高的量化交易系统 |
Overview
逻辑回归通常用于分类算法,例如预测某事是 true
还是 false
(二元分类)。例如,对电子邮件进行分类,该算法将使用电子邮件中的单词作为特征,并据此预测电子邮件是否为垃圾邮件。用数学来讲就是指,假设因变量是 Y,而自变量集是 X,那么逻辑回归将预测因变量 P(Y=1)P(Y=1)P(Y=1) 作为自变量集 X 的函数。
逻辑回归性能在线性分类中是最好的,其核心为基于样本属于某个类别的概率。这里的概率必须是连续的并且在 (0, 1)
之间(有界)。它依赖于阈值函数来做出称为 Sigmoid
或 Logistic
函数决定的。
学好逻辑回归,需要了解逻辑回归的概念、优势比 (OR) 、Logit 函数、Sigmoid 函数、 Logistic 函数及交叉熵或Log Loss
Prerequisite
odds ratio
explain
odds ratio是预测变量的影响。优势比取决于预测变量是分类变量还是连续变量。
- 连续预测变量:OR>1OR>1OR > 1 表示,随着预测变量的增加,事件发生的可能性增加。OR<1OR<1OR < 1 表示随着预测变量的增加,事件发生的可能性较小。
- 分类预测变量:事件发生在预测变量的 2 个不同级别的几率;如 A,B,OR>1OR>1OR > 1 表示事件在 A 级别的可能性更大。OR<1OR<1OR<1 表示事件更低的可能是在A。
例如,假设 X 是受影响的概率,Y 是不受影响的概率,则 OR=XYOR=XYOR= \frac{X}{Y} ,那么 OR=P(1−P)OR=P(1−P)OR = \frac{P}{(1-P)} ,P是事件的概率。
让概率的范围为 [0,1]
,假设 P(success)=0.8P(success)=0.8P(success)=0.8 ,Q(failure)=0.2Q(failure)=0.2Q(failure) = 0.2 ;OROROR 则是 成功概率和失败概率的比值,如:O(success)=PQ=0.80.2=4O(success)=PQ=0.80.2=4O(success)=\frac{P}{Q} = \frac{0.8}{0.2} = 4 , O(failure)=QP=0.20.8=0.25O(failure)=QP=0.20.8=0.25O(failure)=\frac{Q}{P} = \frac{0.2}{0.8} = 0.25 。
odds和probability 的区别
- probability 表示在多次实验中,看到改事件的几率,位于
[0,1]
之间 - odds 表示 (事件发生的概率)(事件不会发生的概率)(事件发生的概率)(事件不会发生的概率)\frac{(事件发生的概率)}{(事件不会发生的概率)} 的比率,位于
[0,∞]
例如赛马,一匹马跑 100 场比赛,赢了 80 场,那么获胜的概率是 80100=0.80=80%80100=0.80=80%\frac{80}{100} = 0.80 = 80% ,获胜的几率是 8020=4:18020=4:1\frac{80}{20}=4:1
总结:probability 和 odds 之间的主要区别:
- “odds”用于描述是否有可能发生事件。相反,probability决定了事件发生的可能性,即事件发生的频率。
- odds以比例表示,probability以百分比形式或小数表示。
- odds通常从
0 ~ ∞
,其中0定义事件发生的可能性,∞
表示发生的可能性。相反,probability 介于0~1
之间。因此,probability越接近于0,不发生的可能性就越大,越接近于1,发生的可能性就越高。
Reference
通过示例陈述公式
假设一个体校的录取率中,10 个男生中有 7 个被录取,而10 个女生中有3个被录取。找出男生被录取的概率?
那么通过已知条件,设 P 为录取概率,Q则为未被录取的概率,那么
- 男生被录取的概率为:
- P=710=0.7P=710=0.7P=\frac{7}{10} = 0.7
- Q=1−0.7=0.3Q=1−0.7=0.3Q=1-0.7 = 0.3
- 女生被录取的概率为:
- P=310=0.3P=310=0.3P=\frac{3}{10}=0.3
- Q=1−0.3=0.7Q=1−0.3=0.7Q=1-0.3=0.7
- 录取优势比:
- OR(boy)=0.70.3=2.33OR(boy)=0.70.3=2.33OR(boy)=\frac{0.7}{0.3}=2.33
- OR(Gril)=0.30.7=0.42OR(Gril)=0.30.7=0.42OR(Gril) = \frac{0.3}{0.7}=0.42
因此,一个男生被录取的几率为 OR=2.330.42=5.44OR=2.330.42=5.44OR=\frac{2.33}{0.42}=5.44
Logit 函数
logit函数是Odd Ratio
的对数 logarithm , 给出 0~1
范围内的输入,然后将它们转换为整个实数范围内的值。如:假设P,则 P(1−P)P(1−P)\frac{P}{(1-P)} 为对应的OR;OR 的 logit 的公式为:loggit§=log(odds)=log(P1−P)loggit§=log(odds)=log(P1−P)loggit§ = log(odds) = log(\frac{P}{1-P}).
以一辆汽车是否出售为例,1为出售,0为不出售,