多元线性回归哑变量设置方法

在这里插入图片描述

多元线性回归是研究一个连续型变量和其他多个变量间线性关系的统计学分析方法,如果在自变量中存在分类变量,如果直接将分类变量和连续性变量统一纳入模型进行分析是有问题的,尤其是无序分类资料,即使进入了模型,也难以解释,因此分类资料纳入模型最佳的方式是设置哑变量。

在SPSS软件中,做Logistic回归时,直接有选项可以将分类变量设置哑变量,但是在做多元线性回归时,分析过程中没有设置哑变量的选项,就需要对原始数据进行拆解,将分类变量拆解成哑变量的形式。(值得一提的是,如果应变量能够转化为二分类的变量,直接采用Logistic回归分析也可以直接分析)

下面介绍在SPSS软件中多元线性回归哑变量设置的方法

以模拟的脑卒中患者康复期生活质量影响因素分析的数据为例,脑卒中患者的生活质量采用卒中专门生存质量量表(SS-QOL)来体现,SS-QOL评分是一个连续性资料,其分数越高,生存质量越好,为探究其影响因素,纳入以下一些研究变量:年龄、婚姻状况、文化程度、职业、BI评分。下图是数据格式,可以看出婚姻状况、文化程度、职业是分类资料。
在这里插入图片描述
从变量的赋值来看,这三个分类资料是无序分类资料,分析时,需要设置哑变量。下面介绍哑变量设置的方法。

在这里插入图片描述

第一步 SPSS菜单栏中 转换-创建虚变量
在这里插入图片描述
第二步 选择分类变量,将其放入“针对下列变量创建虚变量”框里,再重新命名哑变量的名称
在这里插入图片描述

即可在数据中看到创建的哑变量,职业有4种分类,因此创建了4个哑变量

在这里插入图片描述

按照同样的方法,将其他分类变量创建哑变量
在这里插入图片描述

第三步 进行多元线性回归分析
在这里插入图片描述
第四步 哑变量选择

这里注意的是,分类变量的哑变量中确定一个参照变量,然后将除参考变量以外的其他哑变量同时放入自变量框中,如下图所示,把职业=0的做为参照,其他3个哑变量放入模型。

此外,由于哑变量要同出同进模型,因此方法必须选择“输入”

设置好一个哑变量后点“下一个”设置另一个哑变量
在这里插入图片描述
在这里插入图片描述

以此类推,先把所有分类变量设置好

第五步 放置其余变量

这个时候,其他的变量进入模型的方法就可以自由选择了,可以选择逐步,也可以选择其他。
在这里插入图片描述
以上就是多元线性回归哑变量的设置方法。即使解决了哑变量的设置问题,在多元线性回归中,由于哑变量要同进同出,如果有多个分类变量的话,这些多分类是用软件没有办法来进行逐步回归,只能手动选择分类变量进入模型,多次比较模型效果来确定,此外,哑变量的参照组选择不同,对模型结果也是有影响,因此在设置参照哑变量时,可以进行多次尝试,选择对模型解释最佳的参照哑变量。
获取详细教学视频及粉丝交流群,请关注微信公众号【橙子数据军团】
在这里插入图片描述

### 多元线性回归中的哑变量设置多元线性回归分析中,当模型包含定性自变量(即分类变量),如性别、种族或其他分类型数据时,通常通过引入哑变量来表示这些因素的影响。对于具有 \(k\) 个类别的分类变量,在构建回归方程时一般创建 \(k-1\) 个哑变量[^1]。 例如,如果有一个名为“教育水平”的变量分为三个等级:“高中及以下”,“大学本科”以及“研究生及以上”。为了将其纳入到回归模型之中,则可以定义两个哑变量: | 教育水平 | 哑变量 D1 (本科 vs 其他) | 哑变量 D2 (研究生及以上 vs 其他) | |--| | 高中及以下 | 0 | 0 | | 大学本科 | 1 | 0 | | 研究生及以上 | 0 | 1 | 这样做的目的是为了避免完全多重共线性问题——因为所有类别加起来总是等于1,所以只需要\( k-1 \)个指示器就足以表达全部信息。 ### 统计检验方法 一旦设置哑变量并拟合了相应的多元线性回归模型之后,可以通过多种方式来进行假设测试以评估各个系数的重要性及其显著性水平。常用的方法包括但不限于t检验和F检验。 #### t检验用于单个参数估计值 对于每一个单独的哑变量对应的回归系数βi, 可利用标准误SE(βi),计算其t统计量: \[ t=\frac{\hat{\beta}_i}{\text{SE}(\hat{\beta}_i)} \] 其中 \(\hat{\beta}\)_i 表示第 i 个哑变量前边所乘的那个待估参数;而 SE() 则代表该参数的标准误差。接着可以根据样本大小n查找对应自由度下的临界值表得到p-value从而判断这个特定组别相对于参照组是否有明显差异。 #### F检验用于整体效果评价 另外还可以考虑整个分类因子的整体贡献是否重要。这涉及到联合零假设H₀: β₁=...=β_(k−1)=0 的检验。此时应采用ANOVA框架下基于残差平方和分解原理得出的F比率作为决策依据之一。具体来说就是比较全模态SSR_full 和简化版无此分类项后的 SSR_reduced ,进而求得如下形式的比例关系: \[ F = \left[\frac{(SSR_{reduced}-SSR_{full})/(df_{reduced}-df_{full})}{SSE/df_e}\right]\sim F(df_{num}, df_denom)\] 这里 SSE 是指总误差平方和; df_num=(df_reduced-df_full), 即分子部分涉及额外增加了多少个独立约束条件;最后面那个分母里的df_denom指的是剩余未被解释变异拥有的自由度数。 ```python import pandas as pd from statsmodels.formula.api import ols import statsmodels.api as sm # 创建一个简单的例子 DataFrame data = {'Education': ['High School', 'Bachelor', 'Master'], 'Income': [50000, 70000, 90000]} df = pd.DataFrame(data) # 将 Education 转换为哑变量 dummy_vars = pd.get_dummies(df['Education'], drop_first=True) model_data = pd.concat([df[['Income']], dummy_vars], axis=1) # 构建 OLS 模型 ols_model = ols('Income ~ Bachelor + Master', data=model_data).fit() print(ols_model.summary()) ```
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

安安讲代码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值