用R演示逻辑回归过程-值得收藏

作者 | 结实 来源 | DATA江湖

理论

    Logistic回归适用于二值响应变量(0,1)。模 型假 设Y服从二项分布,线性模型的拟合形式为:

640?wx_fmt=png

其中,π= μ(Y)是Y的条件均值(即给定一系列X的值时Y =1的概率),(π/1-π)为Y=1时的优势比,log(π/1-π)为对数优势比。

案例

   我们用婚外情数据即著名的“Fair’s Affairs”,取自于1969年《今日心理》所做的一个非常有代表性的调查,该数据从601个参与者身上收集了9个变量,包括一年来婚外私通的频率以及参与者性别、年龄、婚龄、是否有小孩、宗教信仰程度(5分制,1分表示反对,5分表示非常信仰)、学历、职业(排序后),还有对婚姻的自我评分( 1表示非常不幸福,5表示非常幸福)。

变量说明:

序号12345
变量affairsgenderageyearsmarriedchildren
释义一年内外遇次数性别年龄婚龄孩(N/Y)
序号6789
变量religiousnesseducationoccupationrating
释义宗教信仰程度学历职业婚姻自我评分

首先做描述性分析

640?wx_fmt=jpeg
    可以看出,52%的调查对象是女性,72%的人有孩子,样本年龄的中位数为32岁。对于响应变量,72%的调查对象表示过去一年中没有婚外情(451/601),而婚外偷腥的最多次数为12(占了6%)。

做变量转换(外遇转换为二值变量640?wx_fmt=jpeg

逻辑回归

640?wx_fmt=jpeg

    从回归系数的p值(最后一栏)可以看到,性别、是否有孩子、学历和职业对方程的贡献都不显著。去除这些变量重新拟合模型。640?wx_fmt=jpeg
新模型的每个回归系数都非常显著(p<0.05)。对两个模型进行比较。640?wx_fmt=jpeg

    结果的卡方值不显著(p=0.21),表明四个预测变量的新模型与九个完整预测变量的模型拟合程度一样。

解释参数

640?wx_fmt=jpeg

    可以看到婚龄增加一年,婚外情的优势比将乘以1.11(保持年龄、宗教信仰和婚姻评定不变);相反,年龄增加一岁,婚外情的的优势比则乘以0.97。因此,随着婚龄的增加和年龄、宗教信仰与婚姻评分的降低,婚外情优势比将上升。因为预测变量不能等于0,截距项在此处没有什么特定含义。

——————————————

往期精彩:

640?wx_fmt=png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值