一、数据探索阶段
1、了解变量类型
做回归分析前,了解数据集是怎样的?那些是数值型变量,那些是分类变量,这一步是相当重要的。
r代码:
> class(mydata$Middle_Price)
[1] “numeric”
> class(mydata$MPG.city.)
[1] “factor”
另外我们利用factor函数对各水平进行赋值:
status<-factor(status,order=TRUE,levels=c('poor','improved',’excellent’))
这样将1=poor 2= improved 3= excellent。
对于因子变量,利用as.numeric()将其转化为数值型。
2、数据极端值、异常值
大致了解变量的情况,检验有没有极端值。对于极端值,若发现特别离谱,则可以考虑删除,否则需结合业务而定。极端值在回归的时候会对回归影响很大,所以需提前查看。
> summary(mydata$Middle_Price)
Min. 1st Qu. Median Mean 3rd Qu. Max.
13990 23700 32500 37560 43290 145800
另外我们可以画图(散点图、直方图等等)查看:
plot(mydata$Middle_Price)
hist(mydata$Middle_Price)
回归分析以及r语言实现(一)
回归分析以及r语言实现(一)
对于分类型数据,我们也可以查看其中是否有异常值,并了解其中的分布情况
> table(mydata$cvt)
0 1
211 37
3、缺失值
由于此次试验的数据中不包含有缺失值,所以在此不多做介绍。对于缺失值,可以考虑删除样本,或者根据业务的情况进行填充等等。
4、数据清洗
对于发现的异常值进行处理,对缺失值进行操作,另外根据业务需求在选择部分子集进行分析等等。
二、数据描述
1、 单变量统计量
对于上面分析的变量Middle_Price,根据业务需求提出价格高于80000的样本。对于之后的样本进行单变量统计量分析:
> summary(mydata1$Middle_Price)
Min. 1st Qu. Median Mean 3rd Qu. Max.
13990 23220 31410 33850 40370 78800
抑或利用psych包计算更加多的统计量的方法:
> describe(mydata1$Middle_Price)
var n mean sd median trimmed mad min max range skew kurtosis
1 1 234 33846.43 13826.62 31412.5 32285.66 12361.18 13990 78800 64810 1.04 0.88
se
1 903.87
boxplot(mydata1$Middle_Price)
回归分析以及r语言实现(一)
另外可以通过boxplot.stats查看构建图形的统计量
> boxplot.stats(mydata1$Middle_Price)
$stats
[1] 13990.0 23200.0 31412.5 40425.0 64450.0