响应变量类型
泊松回归模型:
响应变量(Y)是计数数据,即非负整数,如某段时间内发生的事件次数。
逻辑回归:
响应变量(Y)是二分类数据,即只有两个可能的取值(如0和1,表示事件是否发生)。
概率分布
泊松回归模型:
假设响应变量
Y
Y
Y 服从泊松分布,泊松分布的概率质量函数为:
f
(
y
;
λ
)
=
λ
y
e
−
λ
y
!
f(y; \lambda) = \frac{\lambda^y e^{-\lambda}}{y!}
f(y;λ)=y!λye−λ
其中 λ \lambda λ 是事件发生的平均率。
逻辑回归:
假设响应变量
Y
Y
Y 服从伯努利分布,其概率质量函数为:
P
(
Y
=
1
∣
x
)
=
π
(
x
)
P(Y = 1 | x) = \pi(x)
P(Y=1∣x)=π(x)
P
(
Y
=
0
∣
x
)
=
1
−
π
(
x
)
P(Y = 0 | x) = 1 - \pi(x)
P(Y=0∣x)=1−π(x)
其中 π ( x ) \pi(x) π(x) 是事件发生的概率。
链接函数
泊松回归模型:
使用对数链接函数,将线性预测器映射到正数空间,模型形式为:
log
(
λ
(
x
)
)
=
α
+
β
x
\log(\lambda(x)) = \alpha + \beta x
log(λ(x))=α+βx
也可以写成:
λ
(
x
)
=
exp
(
α
+
β
x
)
\lambda(x) = \exp(\alpha + \beta x)
λ(x)=exp(α+βx)
逻辑回归:
使用逻辑(logit)链接函数,将线性预测器映射到 [0, 1] 区间,模型形式为:
log
(
π
(
x
)
1
−
π
(
x
)
)
=
α
+
β
x
\log\left(\frac{\pi(x)}{1 - \pi(x)}\right) = \alpha + \beta x
log(1−π(x)π(x))=α+βx
也可以写成:
π
(
x
)
=
1
1
+
exp
(
−
(
α
+
β
x
)
)
\pi(x) = \frac{1}{1 + \exp(-(\alpha + \beta x))}
π(x)=1+exp(−(α+βx))1
应用场景
泊松回归模型:
主要用于建模计数数据,如交通事故次数、疾病发生次数等。
逻辑回归:
主要用于二分类问题,如信用违约预测、疾病诊断(有病或无病)、邮件分类(垃圾邮件或非垃圾邮件)等。
估计方法
泊松回归模型:
参数估计通常使用最大似然估计(MLE),并通过迭代加权最小二乘法(IRLS)进行计算。
逻辑回归:
参数估计也使用最大似然估计(MLE),并常常通过梯度下降法或其他优化算法进行计算。