python 分类变量回归_虚拟/分类变量线性回归

您需要指出Job或Job_index是一个分类变量;否则,在Job_index的情况下,它将被视为一个连续变量(刚好取1、2和3),这是不对的。

您可以在statsmodels中使用几种不同的符号,下面是公式方法,它使用C()来表示分类变量:from statsmodels.formula.api import ols

fit = ols('Wage ~ C(Sex_male) + C(Job) + Age', data=df).fit()

fit.summary()

OLS Regression Results

==============================================================================

Dep. Variable: Wage R-squared: 0.592

Model: OLS Adj. R-squared: 0.048

Method: Least Squares F-statistic: 1.089

Date: Wed, 06 Jun 2018 Prob (F-statistic): 0.492

Time: 22:35:43 Log-Likelihood: -104.59

No. Observations: 8 AIC: 219.2

Df Residuals: 3 BIC: 219.6

Df Model: 4

Covariance Type: nonrobust

=======================================================================================

coef std err t P>|t| [0.025 0.975]

---------------------------------------------------------------------------------------

Intercept 3.67e+05 3.22e+05 1.141 0.337 -6.57e+05 1.39e+06

C(Sex_male)[T.1] 2.083e+05 1.39e+05 1.498 0.231 -2.34e+05 6.51e+05

C(Job)[T.Assistant] -2.167e+05 1.77e+05 -1.223 0.309 -7.8e+05 3.47e+05

C(Job)[T.Professor] -9273.0556 1.61e+05 -0.058 0.958 -5.21e+05 5.03e+05

Age -3823.7419 6850.345 -0.558 0.616 -2.56e+04 1.8e+04

==============================================================================

Omnibus: 0.479 Durbin-Watson: 1.620

Prob(Omnibus): 0.787 Jarque-Bera (JB): 0.464

Skew: -0.108 Prob(JB): 0.793

Kurtosis: 1.839 Cond. No. 215.

==============================================================================

注意:Job和Job_index不会使用相同的分类级别作为基线,因此您将看到每个级别的虚拟系数略有不同的结果,即使整个模型拟合保持不变。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值