这是一次教授布置的期末作业,也是书籍《商务数据分析与应用》的一个课后作业
目录
数据描述
数据预处理
描述性统计分析
模型分析(方差分析)
数据描述
非学位职业培训机构的178个学员的数据,目的是了解什么样的学员可能获得更好的学习效果
数据预处理
打开数据,查看一部分数据并锁定数据(这样之后可以直接使用变量名而不用$来指定数据)
grades=read.table('E:/SWlearning/R/assighment/RegressionAnalysis/Report/ins1.csv',
header=TRUE,sep=',')
head(grades)
attach(grades)
结果显示
将变量名改成英文
names(grades)=c('aveGrades','gender','birth','firmType','eduBG','eduGrd')
响应变量(因变量):因变量.平均成绩(aveGrades)
自变量:性别(gender),出生日期(birth),企业性质(firmType),最高学历(eduBG),最高学历毕业时间(eduGrd)
检查相应变量的正态性
shapiro.test(aveGrades)
结果显示
Shapiro-Wilk normality test
data: aveGrades
W = 0.89736, p-value = 9.286e-10
p值非常的小故拒绝原假设,即拒绝数据是正态分布的原假设
接下来用BoxCox的方法,建立新的相应变量从而保证其正态性,注意BoxCox.ar是包TSA里的函数