二元Logistic回归

最新推荐文章于 2024-03-01 11:06:11 发布

PUMC芋圆四号

最新推荐文章于 2024-03-01 11:06:11 发布

阅读量1.5w

点赞数 4

分类专栏：统计学文章标签：统计学 R

本文链接：https://blog.csdn.net/ethmery/article/details/109125778

版权

本文详细介绍了二元Logistic回归的概念，适用于研究分类反应变量与多个因素之间的关系，特别是在疾病病因分析中。内容涵盖二元Logistic回归的概述、自变量处理（包括多分类有序和无序变量）、模型解释以及在R中的实现。强调了注意事项，如样本量需求和自变量的选择。此外，还提及了不可用二元Logistic回归的其他情形，如生存分析和定序回归。

摘要由CSDN通过智能技术生成

引言

搞了若干次这个东西，还是似懂非懂。得啃啃这个骨头了。

概述

研究分类反应变量与多个因素之间的关系，使用Logistic回归
- 典型例子：疾病的病因（危险因素）分析
按反应变量分类
- 二分类：二元Logistic回归
- 多分类无序：多元Logistic回归
- 多分类有序：定序回归 (ordinal regression)
按个案是否经过匹配分类
- 非条件Logistic回归
- 条件Logistic回归

二元Logistic回归概述

一般线性模型中的一种，即反应变量 (dependent variables)为二分类变量的回归分析，模型输出为变量取特定值的概率。

反应变量为二分类（某事件发生/不发生）：使用二元Logistic回归
- e.g. 患病-不患病，死亡-生存
- 二分类后的反应变量必须覆盖全集 （即必须为两种可能之一，不可能有第三种）
应用：预测某事件发生的概率，筛选某事件发生的危险因素
其他类似但不可使用二元Logistic回归的情形
- 既关心某事件发生/不发生，也关心该事件何时发生：使用生存分析 (survival analysis)
- 反应变量为多分类变量：使用多元逻辑斯蒂回归
- 反应变量为等级变量：使用定序回归 (ordinal regression)

注意事项

对样本量要求较高
欲筛选的危险因素/预测指标越多，研究所需的样本量越大
因素较多时，交叉分类数量将很大，需要每个分类下有足够的样本量，以保证参数估计的稳定性
重视对自变量的取舍
- 保证每一分类下有足够的样本量
- 最好应能结合具体专业知识及流行病学意义对自变量的影响予以阐释
- 调整自变量通常会进行多次

Logistic模型

以Y表示二分类反应变量，量化赋值：Y=1（阳性）；Y=0（阴性）。
拟考察的自变量假设有m个，记为 $X_1,X_2,...X_m$ 。
设 $P (Y = 1) = P$ 。
称下面模型为Logistic模型：
$P=\frac {e^{(\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_mX_m)}}{1+e^{(\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_mX_m)}}$

最低0.47元/天解锁文章

PUMC芋圆四号

关注

4
点赞
踩
62

收藏

觉得还不错? 一键收藏
0
评论
二元Logistic回归

引言搞了若干次这个东西，还是似懂非懂。得啃啃这个骨头了。概述研究分类反应变量与多个因素之间的关系，使用Logistic回归典型例子：疾病的病因（危险因素）分析按反应变量分类二分类：二元Logistic回归多分类无序：多元Logistic回归多分类有序：定序回归 (ordinal regression)按个案是否经过匹配分类非条件Logistic回归条件Logistic回归二元Logistic回归概述一般线性模型中的一种，即反应变量 (dependent va
复制链接

扫一扫

专栏目录