二元Logistic回归

本文详细介绍了二元Logistic回归的概念,适用于研究分类反应变量与多个因素之间的关系,特别是在疾病病因分析中。内容涵盖二元Logistic回归的概述、自变量处理(包括多分类有序和无序变量)、模型解释以及在R中的实现。强调了注意事项,如样本量需求和自变量的选择。此外,还提及了不可用二元Logistic回归的其他情形,如生存分析和定序回归。
摘要由CSDN通过智能技术生成

引言

搞了若干次这个东西,还是似懂非懂。得啃啃这个骨头了。

概述

  • 研究分类反应变量与多个因素之间的关系,使用Logistic回归
    • 典型例子:疾病的病因 (危险因素)分析
  • 按反应变量分类
    • 二分类:二元Logistic回归
    • 多分类无序:多元Logistic回归
    • 多分类有序:定序回归 (ordinal regression)
  • 按个案是否经过匹配分类
    • 非条件Logistic回归
    • 条件Logistic回归

二元Logistic回归概述

一般线性模型中的一种,即反应变量 (dependent variables)为二分类变量的回归分析,模型输出为变量取特定值的概率

  • 反应变量为二分类 (某事件发生/不发生):使用二元Logistic回归
    • e.g. 患病-不患病,死亡-生存
    • 二分类后的反应变量必须覆盖全集 (即必须为两种可能之一,不可能有第三种)
  • 应用:预测某事件发生的概率,筛选某事件发生的危险因素
  • 其他类似但不可使用二元Logistic回归的情形
    • 既关心某事件发生/不发生,也关心该事件何时发生:使用生存分析 (survival analysis)
    • 反应变量为多分类变量:使用多元逻辑斯蒂回归
    • 反应变量为等级变量:使用定序回归 (ordinal regression)

注意事项

  • 对样本量要求较高
  • 欲筛选的危险因素/预测指标越多,研究所需的样本量越大
  • 因素较多时,交叉分类数量将很大,需要每个分类下有足够的样本量,以保证参数估计的稳定性
  • 重视对自变量的取舍
    • 保证每一分类下有足够的样本量
    • 最好应能结合具体专业知识及流行病学意义对自变量的影响予以阐释
    • 调整自变量通常会进行多次

Logistic模型

以Y表示二分类反应变量,量化赋值:Y=1(阳性);Y=0(阴性)。
拟考察的自变量假设有m个,记为 X 1 , X 2 , . . . X m X_1,X_2,...X_m X1,X2,...Xm
P ( Y = 1 ) = P P(Y=1)=P P(Y=1)=P
称下面模型为Logistic模型:
P = e ( β 0 + β 1 X 1 + β 2 X 2 + . . . + β m X m ) 1 + e ( β 0 + β 1 X 1 + β 2 X 2 + . . . + β m X m ) P=\frac {e^{(\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_mX_m)}}{1+e^{(\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_mX_m)}} P=1+e(β0+β1X1+β2X

  • 4
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值