人工智能与机器学习原理精解【11】

广义线性模型

基础

  • y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β n x n y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_nx_n y=β0+β1x1+β2x2+...+βnxn
    y = β 0 + β 1 x 1 2 + β 2 x 2 2 + β 3 x 1 x 2 + β 4 x 1 + β 5 x 2 y=\beta_0+\beta_1x_1^2+\beta_2x_2^2+\beta_3x_1x_2+\beta_4x_1+\beta_5x_2 y=β0+β1x12+β2x22+β3x1x2+β4x1+β5x2
    等等之类属于线性模型,其中第2个相对于 β \beta β而言,也是线性模型。
  • 泊松回归
    1.泊松回归假设反应变量Y是泊松分布,并假设它期望值的对数可被未知参数的线性组合建模

log ⁡ ( λ ) = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n \log(\lambda) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n log(λ)=β0+β1x1+β2x2++βnxn

其中, λ \lambda λ 是泊松分布的期望(即均值), β 0 \beta_0 β0 是截距项, β 1 , β 2 , … , β n \beta_1, \beta_2, \ldots, \beta_n β1,β2,,βn 是回归系数, x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn 是自变量(解释变量)。
泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型
在这里插入图片描述
在这里插入图片描述
2.泊松分布(Poisson分布),是一种统计与概率学里常见到的离散概率分布

Poisson分布概率函数为:
在这里插入图片描述
泊松分布的参数 λ 是单位时间 ( 或单位面积 ) 内随机事件的平均发生次数 泊松分布的期望和方差均为 λ 泊松分布的参数\lambda是单位时间(或单位面积)内随机事件的平均发生次数\\泊松分布的期望和方差均为\lambda 泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数泊松分布的期望和方差均为λ
泊松分布适合于描述单位时间内随机事件发生的次数。

1.特征
(1)泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量必须很大 。
(2) λ \lambda λ是泊松分布所依赖的唯一参数。
值愈小,分布愈偏倚,随着 λ \lambda λ增大,分布趋于对称。
(3)当 λ \lambda λ=20时分布泊松分布接近于正态分布;
λ \lambda λ> =50时,可以认为泊松分布呈正态分布。
2.在实际工作中,当 λ ≥ 20 \lambda \ge 20 λ20时就可以用正态分布来近似地处理泊松分布的问题。
3.在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。因此,泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位。
引用内容 来自百度百科

  • 泊松回归模型是广义线性模型之一
    λ = e − 3 + 0.3 x \lambda=e^{-3+0.3x} λ=e3+0.3x,如下图所示。
    - λ i = e β 0 + Σ j = 1 p β j X i j \lambda_i=e^{\beta_0+\Sigma_{j=1}^{p}\beta_jX_{ij}} λi=eβ0+Σj=1pβjXij
    两边取对数,将因变量和自变量之间的关系线性化,生成标准连结方程
    l o g e ( λ i ) = β 0 + Σ j = 1 p β j X i j log_e(\lambda_i)=\beta_0+\Sigma_{j=1}^{p}\beta_jX_{ij} loge(λi)=β0+Σj=1pβjXij

理论

下面内容来自文心一言的自动生成

泊松分布的基本公式

泊松分布(Poisson Distribution)是一种统计与概率学中常见的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年发表。泊松分布主要用于描述在固定时间或空间内,随机事件发生的次数。以下是对泊松分布公式的详细解释:

一、基本公式

泊松分布的概率质量函数(Probability Mass Function, PMF)为:

P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ

其中:

  • X X X 是随机变量,表示在固定时间或空间内随机事件发生的次数。
  • k k k X X X 的一个具体取值,表示发生了 k k k 次事件。
  • λ \lambda λ 是泊松分布的参数,表示单位时间(或单位面积)内随机事件的平均发生次数。
  • e e e 是自然对数的底数,约等于2.71828。
  • k ! k! k! k k k 的阶乘,即 k × ( k − 1 ) × ⋯ × 2 × 1 k \times (k-1) \times \cdots \times 2 \times 1 k×(k1)××2×1,特别地, 0 ! = 1 0! = 1 0!=1
二、泊松分布的特点
  1. 离散性:泊松分布是一个离散型随机变量分布,其取值只能是非负整数。
  2. 参数唯一性:泊松分布仅由参数 λ \lambda λ 决定, λ \lambda λ 越大,表示单位时间内随机事件发生的平均次数越多。
  3. 期望与方差:泊松分布的期望 E ( X ) E(X) E(X) 和方差 V a r ( X ) Var(X) Var(X) 均等于 λ \lambda λ
三、泊松分布的应用场景

泊松分布在实际中有广泛的应用,特别是在以下场景中:

  1. 电话呼叫:在一段时间内,电话交换台接到的呼叫次数通常服从泊松分布。
  2. 交通事故:在一段时间内,某路段上发生的交通事故次数也常被视为服从泊松分布。
  3. 放射性衰变:在放射性物质中,原子核的衰变次数在一定时间内也服从泊松分布。
四、泊松分布与二项分布的关系

泊松分布可以看作是二项分布在 n n n 很大而 p p p 很小时的极限情况。当 n → ∞ n \to \infty n n p → λ np \to \lambda npλ 时,二项分布 B ( n , p ) B(n, p) B(n,p) 趋近于泊松分布 P o i s ( λ ) Pois(\lambda) Pois(λ)

五、总结

泊松分布是一种重要的离散概率分布,其公式 P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ 描述了单位时间(或空间)内随机事件发生的次数为 k k k 的概率。泊松分布具有广泛的应用场景,并且在概率论和统计学中占有重要地位。

泊松回归例子1

  • 泊松回归(Poisson Regression)是一种广义线性模型,用于建立离散型响应变量(计数数据)与一个或多个预测变量之间的关系。
  • 它基于泊松分布的假设,即响应变量的期望值服从泊松分布,并且该期望值的对数可以被预测变量的线性组合所建模。
    以下是泊松回归的一个详细例子:
例子背景

假设我们想要预测某条道路在一天内发生的交通事故次数。交通事故次数是一个典型的计数数据,适用于泊松回归模型。我们有两个预测变量:道路的平均日车流量(x1,单位:万辆)和道路的平均日行人流量(x2,单位:万人次)。

模型设定

泊松回归的模型形式通常可以表示为:

log ⁡ ( λ ) = β 0 + β 1 x 1 + β 2 x 2 \log(\lambda) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 log(λ)=β0+β1x1+β2x2

其中, λ \lambda λ 是交通事故次数的期望值(即泊松分布的参数), β 0 \beta_0 β0 β 1 \beta_1 β1 β 2 \beta_2 β2 是模型参数,需要通过数据估计得到。

数据收集

我们收集了某条道路一段时间内的交通事故次数数据,以及对应日期的车流量和行人流量数据。这些数据构成了我们的样本数据集。

模型拟合

使用统计软件(如R、Python的statsmodels等)拟合泊松回归模型。在拟合过程中,软件会基于极大似然估计(Maximum Likelihood Estimation, MLE)方法来估计模型参数 β 0 \beta_0 β0 β 1 \beta_1 β1 β 2 \beta_2 β2

结果解释

假设拟合后的模型参数估计结果为: β 0 = − 2 \beta_0 = -2 β0=2 β 1 = 0.05 \beta_1 = 0.05 β1=0.05 β 2 = 0.02 \beta_2 = 0.02 β2=0.02。则模型可以表示为:

log ⁡ ( λ ) = − 2 + 0.05 x 1 + 0.02 x 2 \log(\lambda) = -2 + 0.05 x_1 + 0.02 x_2 log(λ)=2+0.05x1+0.02x2

- β 1 = 0.05 \beta_1 = 0.05 β1=0.05表示,当日车流量每增加1万辆,交通事故次数的期望值的对数将增加0.05。这意味着交通事故次数本身将按指数方式增长,但具体增长量取决于当前的期望值。
- β 2 = 0.02 \beta_2 = 0.02 β2=0.02表示,当日行人流量每增加1万人次,交通事故次数的期望值的对数将增加0.02,同样意味着交通事故次数将按指数方式增长。

预测

一旦我们有了模型参数,就可以使用模型来预测不同车流量和行人流量下的交通事故次数。例如,如果某日的车流量为10万辆,行人流量为5万人次,则预测的交通事故次数的期望值的对数为:

log ⁡ ( λ ) = − 2 + 0.05 × 10 + 0.02 × 5 = − 2 + 0.5 + 0.1 = − 1.4 \log(\lambda) = -2 + 0.05 \times 10 + 0.02 \times 5 = -2 + 0.5 + 0.1 = -1.4 log(λ)=2+0.05×10+0.02×5=2+0.5+0.1=1.4

将期望值的对数转换回期望值(即交通事故次数),需要计算 e − 1.4 e^{-1.4} e1.4的值,这将给出一个具体的预测数值。

应用场景

泊松回归在多个领域都有广泛应用,包括但不限于:

  • 交通事故预测:预测道路或区域的交通事故次数。
  • 疾病发病率分析:分析特定人群中疾病的发生次数。
  • 网站访问量预测:预测网站在特定时间段内的点击次数或访问量。
  • 零售销售分析:模拟商店在一定期间内的顾客数量或销售次数。

泊松回归为处理计数数据提供了一个强大的建模框架,能够帮助研究者和数据科学家解析和预测涉及计数的现象。

泊松回归例子2

研究吸烟对人群死亡风险的影响

背景

假设进行了一项队列研究,目的是探讨吸烟是否会增加人群的死亡风险。在该研究中,研究者记录了随访期间内每个参与者的吸烟状态(是否吸烟)以及他们的死亡情况。此外,还记录了每个参与者的随访时间(以人年数表示),以便计算死亡率。

数据准备
  • 响应变量:死亡人数(Deaths),这是一个计数数据,表示在随访期间内因各种原因死亡的参与者数量。
  • 暴露变量:随访人年数(Person-years),表示参与者在研究中的总随访时间,是死亡率的分母。
  • 解释变量
    • 吸烟状态(Smokes):一个二元变量,表示参与者是否吸烟(是=1,否=0)。
    • 年龄类别(Agecat):一个分类变量,表示参与者的年龄分组,可能需要通过虚拟变量编码进行处理。
模型设定

泊松回归模型假设死亡人数服从泊松分布,并且其期望值的对数(即log(λ))是解释变量的线性函数。在本例中,模型可以表示为:

log ⁡ ( λ ) = β 0 + β 1 Smokes + β 2 Agecat \log(\lambda) = \beta_0 + \beta_1 \text{Smokes} + \beta_2 \text{Agecat} log(λ)=β0+β1Smokes+β2Agecat

其中, λ \lambda λ是泊松分布的期望(即期望的死亡人数), β 0 , β 1 , β 2 \beta_0, \beta_1, \beta_2 β0,β1,β2是需要估计的回归系数。注意,由于年龄是分类变量,因此 β 2 \beta_2 β2实际上是一个向量,包含了每个年龄类别相对于基准类别的回归系数。

模型拟合

在统计软件(如Stata、R等)中,可以使用相应的命令或函数来拟合泊松回归模型。以Stata为例,可以通过以下步骤进行:

  1. 准备数据,确保数据格式正确,包括死亡人数(Deaths)、随访人年数(Person-years)、吸烟状态(Smokes)和年龄类别(Agecat)。
  2. 调用泊松回归命令,将死亡人数作为响应变量,随访人年数作为暴露变量,吸烟状态和年龄类别作为解释变量。

在Stata中,具体操作可能类似于:

poisson Deaths pyears i.smokes##i.agecat, expose(pyears)

注意:这里的##i.前缀是用于处理分类变量和交互作用的,具体语法可能因Stata版本和上下文而异。实际使用时,请参考Stata的官方文档或相关教程。

结果解释

拟合完成后,软件将输出回归系数的估计值、标准误、z值、p值等统计量。这些统计量可以用于解释吸烟状态和年龄类别对死亡风险的影响。

  • 如果吸烟状态的回归系数 β 1 \beta_1 β1显著为正,则表明吸烟与死亡风险增加有关。
  • 年龄类别的回归系数将提供不同年龄组相对于基准组死亡风险的差异。
预测

利用拟合好的泊松回归模型,可以对新的个体或群体在给定吸烟状态和年龄类别下的死亡风险进行预测。这些预测结果可以用于公共卫生政策制定、健康风险评估等领域。

通过这个例子,我们可以看到泊松回归在分析计数数据、特别是与罕见事件发生率相关的数据时的强大功能。

泊松回归(Poisson Regression)是广义线性模型(Generalized Linear Model, GLM)的一种,特别适用于分析计数数据,即表示某个事件在特定时间或空间内发生次数的数据。以下是一个具体的例子来说明泊松回归的应用:

泊松回归例子3

研究药物对癫痫发病次数的影响

背景
假设我们进行了一项临床研究,旨在评估某种新药物对癫痫患者发病次数的影响。研究收集了多名癫痫患者的数据,包括他们在接受治疗前后的癫痫发病次数,以及患者的年龄、性别、体重等基本信息。

数据准备

  • 响应变量:癫痫发病次数(Y),这是一个计数数据,表示患者在一段时间内(如一个月)的癫痫发病次数。
  • 解释变量
    • 治疗组别(Treatment,Trt):表示患者是否接受了新药物治疗,是分类变量(如治疗组=1,对照组=0)。
    • 年龄(Age):可能影响癫痫发病次数的连续变量。
    • 性别(Gender):可能影响癫痫发病次数的分类变量,但在本例中为简化起见,可能不纳入模型或作为控制变量。
    • 其他可能的协变量,如体重、基础疾病状况等,根据实际情况决定是否纳入模型。

模型设定
我们假设癫痫发病次数Y服从泊松分布,并且其期望值的对数(即log(λ))是解释变量的线性函数。因此,泊松回归模型可以表示为:

log ⁡ ( λ ) = β 0 + β 1 Trt + β 2 Age \log(\lambda) = \beta_0 + \beta_1 \text{Trt} + \beta_2 \text{Age} log(λ)=β0+β1Trt+β2Age

其中, λ \lambda λ 是泊松分布的均值(即期望的癫痫发病次数), β 0 , β 1 , β 2 \beta_0, \beta_1, \beta_2 β0,β1,β2是需要估计的回归系数。

模型拟合
使用统计软件(如R、Python的statsmodels库、Stata等)来拟合泊松回归模型。在R中,可以使用glm()函数,并设置family参数为poisson()来指定泊松分布。

# 假设data是包含响应变量和解释变量的数据框
# 拟合泊松回归模型
poisson_model <- glm(Y ~ Trt + Age, data = data, family = poisson())

# 查看模型摘要
summary(poisson_model)

结果解释
拟合完成后,我们可以查看模型的摘要输出来了解每个解释变量对癫痫发病次数的影响。输出结果通常包括回归系数的估计值、标准误、z值、p值等统计量。

  • 治疗组别(Trt):如果Trt的系数(\beta_1)显著(即p值小于显著性水平,如0.05),则表明新药物对癫痫发病次数有显著影响。系数的符号和大小可以进一步解释这种影响的方向和程度。例如,如果(\beta_1)为负,则表明接受新药物治疗的患者癫痫发病次数减少。
  • 年龄(Age):同样,如果Age的系数(\beta_2)显著,则表明年龄对癫痫发病次数有显著影响。

预测
利用拟合好的泊松回归模型,我们可以预测新患者在接受新药物治疗后一定时间内的癫痫发病次数。通过输入患者的年龄和治疗组别(是否接受新药物治疗),模型将输出预测的癫痫发病次数的期望值。

这个例子展示了泊松回归在评估药物疗效或干预措施效果方面的应用。通过合理的模型设定和参数估计,泊松回归能够为研究者提供有关计数数据生成机制的有用信息,并帮助进行准确的预测和决策。

泊松分布

泊松分布的定义

泊松分布(Poisson Distribution)是以18~19世纪的法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)命名的,是一种离散概率分布。它用于描述在固定时间间隔或空间内,随机事件发生的次数。这些事件以一个已知的常数平均速率发生,并且事件之间是独立的,即一个事件的发生不影响另一个事件的发生。

泊松分布的计算

泊松分布的概率质量函数(PMF)公式为:

P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ

其中:

  • P ( X = k ) P(X=k) P(X=k) 表示随机变量X取值为k的概率。
  • λ \lambda λ是泊松分布的参数,表示单位时间内随机事件的平均发生率。
  • k ! k! k! 表示k的阶乘,即 k × ( k − 1 ) × ( k − 2 ) × ⋯ × 3 × 2 × 1 k \times (k-1) \times (k-2) \times \cdots \times 3 \times 2 \times 1 k×(k1)×(k2)××3×2×1

要计算泊松分布的概率,需要知道(\lambda)的值和随机变量X的取值k。

  • λ \lambda λ必须为正数,因为泊松分布描述的是随机事件发生的次数,次数不能为负。
  • k 必须为非负整数,因为泊松分布是离散概率分布,只能取整数值。
泊松分布的例子

以下是几个泊松分布的实际应用例子:

  1. 电话呼叫中心

    • 场景:一个电话呼叫中心每分钟接到的呼叫数量。
    • 假设:每分钟平均接到3个呼叫 λ = 3 \lambda = 3 λ=3
    • 计算:
      • 接到0个呼叫的概率: P ( X = 0 ) = 3 0 e − 3 0 ! ≈ 0.0498 P(X=0) = \frac{3^0 e^{-3}}{0!} \approx 0.0498 P(X=0)=0!30e30.0498
      • 接到1个呼叫的概率: P ( X = 1 ) = 3 1 e − 3 1 ! ≈ 0.149 P(X=1) = \frac{3^1 e^{-3}}{1!} \approx 0.149 P(X=1)=1!31e30.149
      • 以此类推,可以计算接到任意数量呼叫的概率。
  2. 网络服务器

    • 场景:用户向网络服务器发送请求的数量。
    • 假设:每秒平均收到5个请求 λ = 5 \lambda = 5 λ=5
    • 计算:
      • 收到0个请求的概率: P ( X = 0 ) = 5 0 e − 5 0 ! ≈ 0.0067 P(X=0) = \frac{5^0 e^{-5}}{0!} \approx 0.0067 P(X=0)=0!50e50.0067
      • 收到1个请求的概率: P ( X = 1 ) = 5 1 e − 5 1 ! ≈ 0.0337 P(X=1) = \frac{5^1 e^{-5}}{1!} \approx 0.0337 P(X=1)=1!51e50.0337
      • 以此类推。
  3. 餐厅顾客点餐

    • 场景:餐厅每小时接待的顾客数量。
    • 假设:每小时平均接待20个顾客 λ = 20 \lambda = 20 λ=20
    • 计算:
      • 接待0个顾客的概率极低,几乎不可能发生 P ( X = 0 ) ≈ 2.06 × 1 0 − 9 P(X=0) \approx 2.06 \times 10^{-9} P(X=0)2.06×109
      • 接待1个顾客的概率也很低 P ( X = 1 ) ≈ 4.12 × 1 0 − 8 P(X=1) \approx 4.12 \times 10^{-8} P(X=1)4.12×108
      • 接待更多顾客的概率随着k的增加而逐渐降低,但总体趋势符合泊松分布。
  4. 快递公司包裹派送

    • 场景:快递公司每小时派送的包裹数量。
    • 假设:每小时平均派送10个包裹 λ = 10 \lambda = 10 λ=10
    • 计算:
      • 派送0个包裹的概率: P ( X = 0 ) = 1 0 0 e − 10 0 ! ≈ 4.54 × 1 0 − 5 P(X=0) = \frac{10^0 e^{-10}}{0!} \approx 4.54 \times 10^{-5} P(X=0)=0!100e104.54×105
      • 派送1个包裹的概率: P ( X = 1 ) = 1 0 1 e − 10 1 ! ≈ 4.54 × 1 0 − 4 P(X=1) = \frac{10^1 e^{-10}}{1!} \approx 4.54 \times 10^{-4} P(X=1)=1!101e104.54×104
      • 以此类推。

这些例子展示了泊松分布在描述随机事件发生次数方面的广泛应用。通过设定合适的 λ \lambda λ值,并利用泊松分布的概率质量函数,可以计算出在固定时间间隔或空间内发生特定次数事件的概率。

泊松回归(Poisson Regression)是广义线性模型(Generalized Linear Model, GLM)的一种,特别适用于分析计数数据,这些数据通常表示在特定时间或空间内某事件的发生次数。以下是一个具体的例子来详细说明泊松回归的应用:

广义线性模型(Generalized Linear Models, GLMs)概述

定义

广义线性模型是线性模型的推广,旨在解决普通线性回归模型无法处理因变量离散,并发展能够解决非正态因变量的回归建模任务的建模方法。它通过联结函数(也称为连接函数或链接函数)建立响应变量的数学期望值与线性组合的预测变量之间的关系。具体来说,给定响应变量 Y i Y_i Yi服从指数族分布,有 g ( μ i ) = X i T β g(\mu_i) = X_i^T\beta g(μi)=XiTβ,其中 g g g为连接函数, X i T X_i^T XiT为自变量, μ i = E ( Y i ∣ X i T ) \mu_i = E(Y_i|X_i^T) μi=E(YiXiT)为条件期望。

性质
  1. 非限制性分布:广义线性模型不要求响应变量服从正态分布,而是允许响应变量服从指数族分布,这包括正态分布、二项分布、泊松分布等,从而大大扩展了模型的适用范围。

  2. 连接函数:连接函数 g g g是广义线性模型的核心,它定义了响应变量的均值(或某种变换后的均值)与线性预测器之间的关系。不同的连接函数适用于不同类型的响应变量分布。

  3. 系统性与随机性:广义线性模型由随机成分、系统成分和连接函数三部分组成。系统成分描述了自变量与响应变量之间的关系(通过线性预测器),随机成分则定义了响应变量的分布特性。

  4. 参数估计:广义线性模型通过极大似然估计方法估计模型参数,即找到使观测数据似然函数最大化的参数值。

计算

广义线性模型的计算主要涉及以下几个方面:

  1. 模型设定

    • 确定响应变量的分布类型(如正态分布、二项分布、泊松分布等)。
    • 选择合适的连接函数,该连接函数应能合理地描述响应变量的均值与线性预测器之间的关系。
  2. 极大似然估计

    • 构建似然函数,即观测数据在给定模型参数下的概率。
    • 通过数值方法(如Newton-Raphson方法、Fisher-scoring方法、Iteratively Re-weighted Least Squares方法等)求解使似然函数最大化的参数值。
  3. 模型评估

    • 使用统计指标(如AIC、BIC、残差分析等)评估模型的拟合优度。
    • 进行模型诊断,检查模型假设是否满足,如响应变量的分布是否与假设一致、连接函数是否适当等。
  4. 预测与应用

    • 使用拟合好的模型进行预测,即给定新的自变量值,计算响应变量的预测值。
    • 将模型应用于实际问题解决,如分类、回归等。
示例

以逻辑回归为例,它是广义线性模型的一种特殊形式,用于处理二分类问题。逻辑回归的连接函数是对数几率函数(logit function),即 g ( μ ) = log ⁡ μ 1 − μ g(\mu) = \log\frac{\mu}{1-\mu} g(μ)=log1μμ
响应变量 Y Y Y服从二项分布(Bernoulli分布)
其概率密度函数为 p ( y ∣ μ ) = μ y ( 1 − μ ) 1 − y p(y|\mu) = \mu^y(1-\mu)^{1-y} p(yμ)=μy(1μ)1y,其中 y ∈ { 0 , 1 } y \in \{0, 1\} y{0,1}
在逻辑回归中,我们通常将 μ \mu μ解释为正类( y = 1 y=1 y=1)的概率。

通过上述定义、性质和计算过程的介绍,可以看出广义线性模型是一种灵活且强大的统计建模工具,能够处理多种类型的数据和响应变量分布。

逻辑回归概述

逻辑回归(Logistic Regression)是一种广泛使用的统计方法,尽管名字中包含“回归”,但它实际上是一种分类算法,主要用于二分类问题。逻辑回归通过逻辑函数(通常是sigmoid函数)来预测一个事件发生的概率。

基本概念

在逻辑回归中,我们假设响应变量(或称目标变量)是二元的,即它只能取两个值,通常用0和1表示。例如,在邮件分类问题中,0可以表示“垃圾邮件”,1可以表示“非垃圾邮件”。

Sigmoid函数

逻辑回归使用一个称为sigmoid函数的逻辑函数来将线性回归模型的输出(一个连续的实数值)转换为概率值。sigmoid函数的公式为:

σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+ez1

其中, z z z 是线性回归模型的输出,即 z = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n z=β0+β1x1+β2x2++βnxn(对于n个自变量)。sigmoid函数将 z z z的值映射到 ( 0 , 1 ) (0, 1) (0,1)区间内,这个值可以解释为给定输入下,目标变量为1(即正类)的概率。

参数估计

逻辑回归的参数(即 β 0 , β 1 , … , β n \beta_0, \beta_1, \ldots, \beta_n β0,β1,,βn)通常通过最大似然估计(MLE)来求解。由于逻辑回归的响应变量服从二项分布(在每次观测中,事件发生的概率为 p p p,不发生的概率为 1 − p 1-p 1p),我们可以构建似然函数,并通过最大化这个似然函数(或其对数形式,即对数似然函数)来找到最优的参数值。

模型评估

逻辑回归模型的性能可以通过多种指标来评估,包括但不限于:

  • 准确率(Accuracy):正确预测的样本数占总样本数的比例。
  • 精确率(Precision):被模型预测为正类的样本中,真正为正类的样本所占的比例。
  • 召回率(Recall)或真正率(True Positive Rate, TPR):在所有实际为正类的样本中,被模型正确预测为正类的样本所占的比例。
  • F1分数(F1 Score):精确率和召回率的调和平均数,用于综合评估模型的性能。
  • ROC曲线AUC值:ROC曲线展示了不同阈值下真正率(TPR)与假正率(FPR)的关系,AUC值是ROC曲线下的面积,用于量化模型的分类能力。
应用场景

逻辑回归由于其简单性和可解释性,在许多领域都有广泛的应用,包括但不限于:

  • 垃圾邮件检测
  • 信用卡欺诈检测
  • 医疗诊断(如疾病预测)
  • 广告点击率预测
  • 客户流失预测

尽管逻辑回归在处理非线性关系时可能不如某些更复杂的模型(如随机森林、梯度提升机等),但它仍然是一个强大且受欢迎的工具,特别是在需要可解释性和快速计算的场景中。
逻辑回归(Logistic Regression)的计算过程、例子和例题涉及多个方面,以下将分别进行说明。

逻辑回归的计算过程

逻辑回归的计算过程主要包括以下几个步骤:

  1. 模型定义

    • 逻辑回归模型通过sigmoid函数将线性回归的输出转换为概率值。sigmoid函数的公式为:
      σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+ez1
      其中, z = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n z=β0+β1x1+β2x2++βnxn β 0 \beta_0 β0 是截距, β 1 , … , β n \beta_1, \ldots, \beta_n β1,,βn 是回归系数, x 1 , … , x n x_1, \ldots, x_n x1,,xn 是自变量。
  2. 参数估计

    • 使用最大似然估计(MLE)或梯度下降法(Gradient Descent)等优化算法来估计模型的参数(即 β 0 , β 1 , … , β n \beta_0, \beta_1, \ldots, \beta_n β0,β1,,βn)。
    • 最大化似然函数(或其对数形式)来找到最优的参数值。
  3. 模型评估

    • 使用准确率、精确率、召回率、F1分数、ROC曲线和AUC值等指标来评估模型的性能。
逻辑回归的例子

以下是一个逻辑回归的例子,用于预测客户是否会流失:

  1. 数据准备

    • 假设有一份包含7000组客户数据的表格,其中包括客户的多个特征(如年龄、收入、交易次数等)以及一个目标变量“是否流失”(0表示未流失,1表示流失)。
  2. 划分数据集

    • 使用train_test_split函数将数据划分为训练集和测试集,例如测试集占总数据的20%。
  3. 模型训练

    • 使用LogisticRegression类从sklearn.linear_model模块中创建一个逻辑回归模型。
    • 使用训练集数据训练模型,即调用模型的fit方法。
  4. 预测与评估

    • 使用训练好的模型对测试集进行预测,获取预测结果。
    • 使用准确率、召回率等指标评估模型性能。
逻辑回归的例题

假设有一份关于学生考试成绩的数据集,目标是根据学生的多个特征(如学习时间、复习次数、课堂参与度等)预测学生是否能够通过考试(0表示未通过,1表示通过)。

步骤

  1. 数据预处理

    • 加载数据,并进行必要的清洗和预处理,如处理缺失值、异常值等。
  2. 特征选择与目标变量定义

    • 选择与学生考试成绩相关的特征作为自变量,将“是否通过考试”作为目标变量。
  3. 划分数据集

    • 使用train_test_split函数将数据划分为训练集和测试集。
  4. 模型训练

    • 初始化逻辑回归模型,并使用训练集数据训练模型。
  5. 预测与评估

    • 使用训练好的模型对测试集进行预测,获取预测结果。
    • 计算并输出模型的准确率、召回率等指标,以评估模型性能。

请注意,由于这里是一个假设的例题,因此没有提供具体的代码实现和数据集。在实际应用中,您需要根据具体的数据集和需求进行相应的数据处理和模型训练。

泊松回归模型概述

泊松回归模型(Poisson Regression Model)是统计学中用于对计数数据和列联表进行建模的一种广义线性模型(Generalized Linear Model, GLM)形式。以下是对泊松回归模型的详细解释:

一、定义与基本原理

泊松回归模型假设响应变量Y具有泊松分布,并假设其期望值的对数可以通过未知参数的线性组合来建模。这种模型特别适用于分析计数数据,即表示某个事件在特定时间或空间内发生次数的数据。

二、模型形式

泊松回归模型的数学形式通常可以表示为:

log ⁡ ( λ ) = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n \log(\lambda) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n log(λ)=β0+β1x1+β2x2++βnxn

其中, λ \lambda λ 是泊松分布的期望(即均值), β 0 \beta_0 β0 是截距项, β 1 , β 2 , … , β n \beta_1, \beta_2, \ldots, \beta_n β1,β2,,βn 是回归系数, x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn 是自变量(解释变量)。

三、模型特点
  1. 适用性:泊松回归模型特别适用于计数数据的分析,如某段时间内的交通事故次数、某地区内的疾病发生次数等。
  2. 对数链接函数:模型通过对数链接函数将线性预测器(即 β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n β0+β1x1+β2x2++βnxn)与泊松分布的期望值(即 λ \lambda λ)联系起来。
  3. 方差等于均值:在泊松分布中,方差等于均值(即 Var ( Y ) = λ \text{Var}(Y) = \lambda Var(Y)=λ),这一特性在泊松回归模型中同样适用。
四、参数估计

泊松回归模型的参数(即 β 0 , β 1 , … , β n \beta_0, \beta_1, \ldots, \beta_n β0,β1,,βn)通常通过极大似然估计(Maximum Likelihood Estimation, MLE)方法进行估计。极大似然估计的目标是找到一组参数值,使得在给定这组参数值下观测到数据的概率(即似然函数)达到最大。

五、应用实例

泊松回归模型在多个领域都有广泛的应用,如:

  • 医学研究:分析某种疾病在特定人群中的发病率。
  • 交通工程:预测某条道路上某时间段内的交通事故次数。
  • 市场营销:分析某种促销活动对产品销售量的影响。
六、注意事项
  • 当计数数据的方差远大于均值时,泊松回归模型可能不再适用,此时可以考虑使用负二项回归模型等更灵活的模型。
  • 在应用泊松回归模型时,需要注意数据的完整性和准确性,以及自变量的选择和模型的验证。

综上所述,泊松回归模型是一种重要的统计分析工具,特别适用于计数数据的分析和建模。通过合理的模型设定和参数估计,可以为实际问题的解决提供有力的支持。

参考文献

1、文心一言
2、《广义线性模型》

  • 15
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值