【统计模型】肺活量影响因素分析报告

目录

肺活量影响因素分析报告

一、研究目的

二、数据来源和相关说明

三、描述性分析

3.1 样本描述

3.2 数据可视化

四、数据建模

4.1 回归模型A

4.2 回归模型B

4.3 结果分析

五、结论及建议

5.1 结论

5.2 建议

六、代码


肺活量影响因素分析报告

        内容提要 本文基于LungCapData数据,进行了描述性统计分析和回归分析。经过分析得出:年龄、身高和性别对肺活量存在正向影响,其中性别的影响最大,男性的肺活量均值要高于女性;是否吸烟对肺活量存在负向影响,其中吸烟者的肺活量均值要低于非吸烟者。基于此,本文提出了及时戒烟和加强运动的建议。

一、研究目的

      肺活量(LungCapData)是衡量一个人身体健康程度的重要指标。一般而言,影响肺活量的因素有很多,例如性别、年龄、身材、是否经常运动、是否吸烟与酗酒等。本文欲探究年龄(Age)、身高(Height)、是否吸烟(Smoke)、性别(Gender)与是否是剖腹产(Caesarean)对肺活量是否存在影响,若有影响,影响程度如何。根据分析结果,本文提出了相应的建议。

二、数据来源和相关说明

      本文利用LungCapData数据,对肺活量的影响因素进行探究。数据共计725条,涉及的变量6个,分别为:

表 2-1  变量说明

变量

符号

解释

肺活量

Y

反应体质的指标

对数肺活量

ln⁡(Y)

肺活量取对数

年龄

X1

连续变量

身高

X2

连续变量

是否吸烟

X3

否=0;是=1

性别

X4

女=0;男=1

是否剖腹产

X5

否=0;是=1

三、描述性分析

      为了获得对数据的整体了解,本文先对数据进行了描述性统计分析。

3.1 样本描述

表 3-1  样本描述

变量名

最小值

中位数

最大值

平均值

LungCap(Y)

0.507

8.000

14.675

7.863

Age(X1)

3.000

13.000

19.000

12.330

Height(X2)

45.300

65.400

81.800

64.840

Smoke(X3)

0.000

0.000

1.000

0.106

Gender(X4)

0.000

1.000

1.000

0.506

Caesarean(X5)

0.000

0.000

1.000

0.226

      从表3-1可以得出:肺活量(LungCapData)介于0.507-14.675之前,其平均水平约为7.863(平均值)和8.000(中位数);年龄介于3-19岁之间,其平均水平约为12.330(平均值)和13.000(中位数);身高介于45.300-81.800之间,其平均水平为64.840(平均值)和65.400(中位数);是否吸烟取值为0&1,其平均水平为0.106(平均值)和0.000(中位数),由此可见不吸烟的人数更多;性别取值为0&1,其平均水平为0.506(平均值)和1(中位数),由此可见男性人数多一些;是否是剖腹产取值为0&1,其平均水平为0.226(平均值)和0(中位数),由此可见非剖腹产人数较多。

3.2 数据可视化

      为了更直观地看数据的分布情况,本文用R软件,分别绘制了肺活量、年龄和体重的直方图,是否吸烟、性别和是否是剖腹产的饼图。为了分析各个变量之间的关系,本文又绘制了各个变量的相关性热力图,是否吸烟、性别和是否是剖腹产与肺活量的箱线图,具体结果见图3-1到图3-4。

图 3-1  直方图

      从图3-1直方图可以得出:肺活量、年龄和身高均大致服从正态分布。其中,肺活量数值多集中在6~9之间,年龄多集中在10~16岁,身高多集中在60~70之间。

图 3-2  饼图

      从图3-2饼图可以得出:样本中,绝大多数人群不吸烟,占比89.4%,少数人吸烟,占比10.9%;男性与女性人数基本相同,男性略多余女性,分别占比50.6%和49.4%;人群中大部分人不是剖腹产,占比77.4%,少数人是剖腹产,占比22.6%。

图 3-3  相关性热力图

      从图3-3热力图可以得出:肺活量与年龄和身高都有较强的相关性,相关系数分别为0.82和0.91。年龄和身高之间也存在较强的相关性,相关系数为0.84。

图 3-4  箱线图

      从图3-4箱线图可以得出:从直观上看,是否吸烟与性别在对数肺活量上存在一定的差异性,而是否是剖腹产在对数量上基本不存在差异性。此外,不吸烟人群肺活量的最大值要高于吸烟人群;男性肺活量要高于女性,这与常识相符;非剖腹产人群的肺活量也高于剖腹产人群。

四、数据建模

4.1 回归模型A

      为了分析肺活量的影响因素,本文首先建立了回归模型A (不考虑交互效应),即以ln⁡(Y) 作为因变量,X1~X5 作为自变量,建立回归模型。

lnY=β0+β1X1+β2X2+β3X3+β4X4+β5X5

模型结果如下表4-1所示。

表 4-1  回归模型A结果

变量

Estimate

Std.Error

t value

Pr(>|t|)

β0

-0.9746

0.097

-10.099

<2e-16***

X1

0.0251

0.004

6.797

2.25e-11***

X2

0.0407

0.002

19.743

<2e-16

X3

-0.0678

0.026

-2.626

0.009***

X4

0.0526

0.016

3.224

0.001**

X5

-0.0345

0.019

-1.854

0.064

R-squared

0.7697

Adjusted R-squared

p-value

0.7681

<2.2e-16

      从表4-1可以得出:X1~X5 中,只有X5P>0.05 ,即在显著性水平α=0.05 的条件下,是否是剖腹产对肺活量不存在显著性影响。因而,本文考虑去除变量X5 后再建立回归模型B

4.2 回归模型B

        以ln⁡(Y) 作为因变量,X1~X4 作为自变量,建立回归模型。

lnY=β0+β1X1+β2X2+β3X3+β4X4

模型结果如下表4-2所示。同时,对模型A和模型B进行方差分析,以进一步判断是否舍弃变量X5 ,分析结果如表4-2所示。

表 4-2  回归模型B结果

变量

Estimate

Std.Error

t value

Pr(>|t|)

-0.9763

0.097

-10.099

<2e-16***

X1

0.0250

0.004

6.768

2.71e-11***

X2

0.0406

0.002

19.676

<2e-16

X3

-0.0691

0.026

-2.674

0.008***

X4

0.0524

0.016

3.202

0.001**

R-squared

0.7686

Adjusted R-squared

p-value

0.7673

<2.2e-16

P-value

2.2e-6

        由表4-2可以得出:变量X1~X4P 值均<0.05 ,即在显著性水平α=0.05 的条件下,这四个变量对肺活量均存在显著性影响。

表 4-3  回归模型A和回归模型B方差分析

模型

Res.Df

RSS

Df

Sum of Sq

F

Pr(>f)

A

719

31.404

B

720

31.554

-1

-0.150

3.436

0.064

      由表4-3可以得出:模型A 和模型B 方差分析P 值为0.064>0.05 ,因而在显著性水平α=0.05 的条件下接受原假设,即认为模型A 和模型B 不存在显著性差异,即变量X5 可以剔除。因而,本文采用模型B 的分析结果对肺活量的影响因素进行定量分析。模型B 对应的回归模型如下。

lnY=-0.9763+0.0250X1+0.0406X2-0.0691X3+0.0524X4

4.3 结果分析

      根据表4-2可以得出:β1=0.0250 ,意味着其他变量保持不变时,X1 (年龄)每增加1岁,肺活量将相较于之前增加2.50%;β2=0.0406 ,意味着其他变量保持不变时,X2 (身高)高度每增加1,肺活量将相较于之前增加4.06%;β3=-0.0691 ,意味着其他变量保持不变时,X3 (是否吸烟)每增加1,即吸烟的人相较于不吸烟的人,肺活量将降低6.91%;β4=0.0524 ,意味着其他变量保持不变时,X4 (性别)每增加1,即男性相较于女性,肺活量将增加5.24%。

      综上所述,年龄、身高和性别均对肺活量有正向影响,其中性别的影响最大,身高次之,年龄影响最小;是否吸烟对肺活量存在负向影响,即从平均意义上而言,吸烟会降低人的肺活量,且影响较大。

五、结论及建议

5.1 结论

      样本中,男性略多于女性,吸烟者和剖腹产仅占一小部分,分别为10.6%和22.6%。肺活量、年龄和身高都大致服从正态分布。从图形上看,年龄和身高与肺活量存在强相关性,是否吸烟与性别在肺活量上有较大差异性,是否是剖腹产差异性较小。

      根据回归分析可以得出:在显著性水平α=0.05 下,五个因素中,四个因素均对肺活量存在显著性影响,分别是年龄、身高、是否吸烟和性别。随着年龄和身高的增长,肺活量均会增加;男性肺活量的均值要高于女性;吸烟者的肺活量均值要低于不吸烟者。

5.2 建议

      综上所述,本文提出以下两点建议:

  • 吸烟者应尽量戒烟:根据本文分析,吸烟会明显降低肺活量。此外,吸烟对身体的危害不言而喻,因而为了自身身体健康考虑,应考虑尽早戒烟。
  • 肺活量是测量心肺功能的一项重要指标,肺活量的大小反映了人体的心肺功能和健康程度。据网上资料显示,可以通过做有氧运动,如登山、慢跑、游泳等;或者做增强扩胸的运动等都可以增加自身肺活量。为了自身的身体健康,可以考虑经常做运动来增加自己的肺活量,改善自身体质。

六、代码

a=read.csv("D:/个人成长/学业/课程/大三下课程/统计模型/线性回归模型和方差分析模型/LungCapData.csv",header=1)
a[1:5,]
b=a[,1:3]
a$Y=log(a$LungCap)
dim(a)
par(mfrow=c(1,3))
hist(a$LungCap,xlab="肺活量",ylab = "Frequency",main=NULL)
#hist(log(a$LungCap),xlab="肺活量",ylab = "Frequency",main=NULL)
hist(a$Age,xlab="年龄",ylab = "Frequency",main=NULL)
hist(a$Height,xlab="身高",ylab = "Frequency",main=NULL)
#hist(log(a$Age),xlab="年龄",ylab = "Frequency",main=NULL)
#hist(log(a$Height),xlab="身高",ylab = "Frequency",main=NULL)
x=c(648,77)
piepercent1=round(100*x/sum(x),1)
y=c(358,367)
piepercent2=round(100*y/sum(x),1)
z=c(561,164)
piepercent3=round(100*z/sum(x),1)
par(mfrow=c(1,3))
pie(x,labels=piepercent1,main="是否吸烟",col=rainbow(length(x)))
legend("topright",c("不吸烟","吸烟"),cex=0.8,fill=rainbow(length(x)))
pie(y,labels=piepercent2,main="性别",col=rainbow(length(y)))
legend("topright",c("女性","男性"),cex=0.8,fill=rainbow(length(y)))
pie(z,labels=piepercent3,main="是否是剖腹产",col=rainbow(length(z)))
legend("topright",c("否","是"),cex=0.8,fill=rainbow(length(z)))
library(corrplot)
##默认参数
k=cor(b,use='everything',method='pearson')
par(mfrow=c(1,1))
corrplot(k,addCoef.col = "black")
summary(a)
descrb = function(var){
  Z=a[,var]
  N=tapply(a$Y,Z,length)
  MU=tapply(a$Y,Z,mean)
  SD=tapply(a$Y,Z,sd)
  MIN=tapply(a$Y,Z,min)
  MED=tapply(a$Y,Z,median)
  MAX=tapply(a$Y,Z,max)
  out=cbind(N,MU,SD,MIN,MED,MAX)
  out
}
descrb("Smoke") 
descrb("Gender")
descrb("Caesarean")

par(mfrow=c(1,3))
boxplot(Y~Smoke,a,ylab="对数肺活量",xlab="是否吸烟",names=c("否","是"))
boxplot(Y~Gender,a,ylab="对数肺活量",xlab="性别",names=c("女","男"))
boxplot(Y~Caesarean,a,ylab="对数肺活量",xlab="是否是剖腹产",names=c("否","是"))

Model.A=lm(Y~Age+Height+Smoke+Gender+Caesarean,data=a)
summary(Model.A)

Model.B=lm(Y~Age+Height+Smoke+Gender,data=a)
summary(Model.B)

anova(Model.A,Model.B)

个人见解,请各位读者批评指正!

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值