踏上R语言之旅:解锁数据世界的神秘密码(五)

本文详细介绍了数据的分类、模型选择,特别是广义线性模型中的Logistic模型,包括实例分析和R语言操作。内容涵盖了连续变量、分类变量的应用,以及非线性回归模型如多项式、对数、指数、幂和双曲线函数的处理方法。
摘要由CSDN通过智能技术生成

线性与非线性模型及R使用



一、数据的分类与模型选择

变量的取值类型

因变量记为y,解释变量记为x1,x2,…
因变量y一般有如下五种取值方式:
(1)y为连续变量,如心脏面积、肺活量、血红蛋白量等。
(2)y为“0-1”变量或称二分类变量,如实验“成功”、“失败”,“有效”、“无效”,治疗结果“存活”、“死亡”等。
(3)y为有序变量(等级变量),如治疗结果“治愈”、“显效”、“无效”等。
(4)y为多分类变量,如脑肿瘤分良性、恶性、转移瘤,小儿肺炎分结核性、化脓性和细菌性等。
(5)y为连续伴有删失变量,如某病治疗后存活时间可能有失访删失、终检删失和随机删失等。

解释变量x一般有如下三种取值方式:
(1)x为连续变量,如身高、体重等,一般称x为自变量或协变量。
(2)x为分类变量,如性别:男、女,居住地:城市、村镇、农村等,称x为因素。
(3)x为等级变量,如吸烟量:不吸烟、0–10支、10~20支、20支以上等,x可通过评分转化为协变量,也可以看成因素,等级数看成是因素的水平数。


二、广义线性模型

1.广义线性模型概述

因变量为非正态分布线性模型称为广义线性模型
在这里插入图片描述
在R语言中,正态(高斯)分布族的广义线性模型事实上同线性模型是相同的,即
gm <-glm(formula,family=gaussian,data)
同线性模型
fm <-Im(formula,data)
得到的结论是一致的,当然,其效率会差很多。
在这里插入图片描述

2.Logistic模型

在这里插入图片描述
实例分析:

对45名驾驶员的调查结果

> nk=read.table("clipboard",header=T)
> logit.glm<-glm(y~x1+x2+x3,family=binomial,data=nk)
> summary(logit.glm)#Logistic回归模型结果

Call:
glm(formula = y ~ x1 + x2 + x3, family = binomial, data = nk)

Coefficients
             Estimate Std. Error z value Pr(>|z|)  
(Intercept)  0.597610   0.894831   0.668   0.5042  
x1          -1.496084   0.704861  -2.123   0.0338 *
x2          -0.001595   0.016758  -0.095   0.9242  
x3           0.315865   0.701093   0.451   0.6523  
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 62.183  on 44  degrees of freedom
Residual deviance: 57.026  on 41  degrees of freedom
AIC: 65.026

Number of Fisher Scoring iterations: 4

在这里插入图片描述

> logit.step<-step(logit.glm,direction="both")#逐步筛选法变量选择
Start:  AIC=65.03
y ~ x1 + x2 + x3

       Df Deviance    AIC
- x2    1   57.035 63.035
- x3    1   57.232 63.232
<none>      57.026 65.026
- x1    1   61.936 67.936

Step:  AIC=63.03
y ~ x1 + x3

       Df Deviance    AIC
- x3    1   57.241 61.241
<none>      57.035 63.035
+ x2    1   57.026 65.026
- x1    1   61.991 65.991

Step:  AIC=61.24
y ~ x1

       Df Deviance    AIC
<none>      57.241 61.241
+ x3    1   57.035 63.035
+ x2    1   57.232 63.232
- x1    1   62.183 64.183
> summary(logit.step)#逐步筛选法变量选择结果

Call:
glm(formula = y ~ x1, family = binomial, data = nk)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept)   0.6190     0.4688   1.320   0.1867  
x1           -1.3728     0.6353  -2.161   0.0307 *
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 62.183  on 44  degrees of freedom
Residual deviance: 57.241  on 43  degrees of freedom
AIC: 61.241

Number of Fisher Scoring iterations: 4

在这里插入图片描述

> pre1<-predict(logit.step,data.frame(x1=1))#预测视力正常司机Logistic回归结果
> p2<-exp(pre2)/(1+exp(pre2))#预测视力有问题的司机发生事故概率
错误: 找不到对象'pre2'
> p1<-exp(pre1)/(1+exp(pre1))#预测视力正常司机发生事故概率
> pre2<-predict(logit.step,data.frame(x1=0))#预测视力有问题的司机Logistic回归结果
> p2<-exp(pre2)/(1+exp(pre2))#预测视力有问题的司机发生事故概率
> c(p1,p2)#结果显示
   1    1 
0.32 0.65 

可见,P1=0.32,P2=0.65,说明视力有问题的司机发生交通事故的概率是视力正常的司机的两倍以上。

三、非线性回归模型

一元非线性回归模型及其应用

一、曲线回归

曲线回归分析的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。

二、可直线化的曲线类型
多项式曲线

二次函数(抛物线)

> x=-10:10
> plot(x,1+2*x+3*x^2,"o",yplab="y=1+2x+3x^2")

在这里插入图片描述
2.对数函数y=a+blogx
令x’=logx,则将其直线化为y=a+bx’。

> x=1:20
> plot(x,3+2*log(x),"o",ylab="y+2log(x)")#b>0
> plot(x,3-2*log(x),"o",ylab="y+2log(x)")#b<0

在这里插入图片描述
在这里插入图片描述
3.指数函数

> plot(x,3*exp(0.2*x),"o",ylab="y=3exp(0.2x)")
> plot(x,3*exp(0.2/x),"o",ylab="y=3*exp(0.2/x)")

在这里插入图片描述
在这里插入图片描述

4.幂函数

> plot(x,3*x^2,"o",ylab="y=3x^2")#b>0
> plot(x,3*x^-2,"o",ylab="y=3x^-2")#b<0

在这里插入图片描述

在这里插入图片描述
5.双曲线函数y=a+b/x

> plot(x,3+2/x,"o",ylab="y=3+2/x")#b>0
> plot(x,3-2/x,"o",ylab="y=3-2/x")#b<0

在这里插入图片描述
在这里插入图片描述


总结

本小节主要学习了数据的分类与模型选择以及广义线性模型,尤其是 Logistic模型的方法介绍和实际应用操作,继续加油!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小伍_Five

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值