回归分析以及r语言实现(一)

本文介绍了使用R语言进行回归分析前的数据探索步骤,包括了解变量类型、处理异常值、缺失值检查及数据清洗。通过单变量统计量、正态性检验、列联表分析和相关性计算,为后续的回归分析打下基础。
摘要由CSDN通过智能技术生成

一、数据探索阶段
1、了解变量类型
做回归分析前,了解数据集是怎样的?那些是数值型变量,那些是分类变量,这一步是相当重要的。
r代码:

> class(mydata$Middle_Price)

[1] “numeric”

> class(mydata$MPG.city.)

[1] “factor”
另外我们利用factor函数对各水平进行赋值:

status<-factor(status,order=TRUE,levels=c('poor','improved',’excellent’))

这样将1=poor 2= improved 3= excellent。
对于因子变量,利用as.numeric()将其转化为数值型。
2、数据极端值、异常值
大致了解变量的情况,检验有没有极端值。对于极端值,若发现特别离谱,则可以考虑删除,否则需结合业务而定。极端值在回归的时候会对回归影响很大,所以需提前查看。

> summary(mydata$Middle_Price)

Min. 1st Qu. Median Mean 3rd Qu. Max.
13990 23700 32500 37560 43290 145800
另外我们可以画图(散点图、直方图等等)查看:

plot(mydata$Middle_Price)
hist(mydata$Middle_Price)

回归分析以及r语言实现(一)

回归分析以及r语言实现(一)

对于分类型数据,我们也可以查看其中是否有异常值,并了解其中的分布情况

> table(mydata$cvt)

0 1
211 37
3、缺失值
由于此次试验的数据中不包含有缺失值,所以在此不多做介绍。对于缺失值,可以考虑删除样本,或者根据业务的情况进行填充等等。

4、数据清洗
对于发现的异常值进行处理,对缺失值进行操作,另外根据业务需求在选择部分子集进行分析等等。

二、数据描述
1、 单变量统计量
对于上面分析的变量Middle_Price,根据业务需求提出价格高于80000的样本。对于之后的样本进行单变量统计量分析:

> summary(mydata1$Middle_Price)

Min. 1st Qu. Median Mean 3rd Qu. Max.
13990 23220 31410 33850 40370 78800
抑或利用psych包计算更加多的统计量的方法:

> describe(mydata1$Middle_Price)

var n mean sd median trimmed mad min max range skew kurtosis
1 1 234 33846.43 13826.62 31412.5 32285.66 12361.18 13990 78800 64810 1.04 0.88
se
1 903.87

boxplot(mydata1$Middle_Price)

回归分析以及r语言实现(一)

另外可以通过boxplot.stats查看构建图形的统计量

> boxplot.stats(mydata1$Middle_Price)
$stats

[1] 13990.0 23200.0 31412.5 40425.0 64450.0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值