回归分析以及r语言实现（一）

最新推荐文章于 2024-08-08 16:02:03 发布

LT-CAT努力前进

最新推荐文章于 2024-08-08 16:02:03 发布

阅读量3.8k

点赞数

分类专栏： R 文章标签： r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35606497/article/details/52180514

版权

本文介绍了使用R语言进行回归分析前的数据探索步骤，包括了解变量类型、处理异常值、缺失值检查及数据清洗。通过单变量统计量、正态性检验、列联表分析和相关性计算，为后续的回归分析打下基础。

摘要由CSDN通过智能技术生成

一、数据探索阶段
1、了解变量类型
做回归分析前，了解数据集是怎样的？那些是数值型变量，那些是分类变量，这一步是相当重要的。
r代码：

> class(mydata$Middle_Price)

[1] “numeric”

> class(mydata$MPG.city.)

[1] “factor”
另外我们利用factor函数对各水平进行赋值：

status<-factor(status,order=TRUE,levels=c('poor','improved',’excellent’))

这样将1=poor 2= improved 3= excellent。
对于因子变量，利用as.numeric()将其转化为数值型。
2、数据极端值、异常值
大致了解变量的情况，检验有没有极端值。对于极端值，若发现特别离谱，则可以考虑删除，否则需结合业务而定。极端值在回归的时候会对回归影响很大，所以需提前查看。

> summary(mydata$Middle_Price)

Min. 1st Qu. Median Mean 3rd Qu. Max.
13990 23700 32500 37560 43290 145800
另外我们可以画图(散点图、直方图等等)查看：

plot(mydata$Middle_Price)
hist(mydata$Middle_Price)

回归分析以及r语言实现（一）

回归分析以及r语言实现（一）

对于分类型数据，我们也可以查看其中是否有异常值，并了解其中的分布情况

> table(mydata$cvt)

0 1
211 37
3、缺失值
由于此次试验的数据中不包含有缺失值，所以在此不多做介绍。对于缺失值，可以考虑删除样本，或者根据业务的情况进行填充等等。

4、数据清洗
对于发现的异常值进行处理，对缺失值进行操作，另外根据业务需求在选择部分子集进行分析等等。

二、数据描述
1、单变量统计量
对于上面分析的变量Middle_Price，根据业务需求提出价格高于80000的样本。对于之后的样本进行单变量统计量分析：

> summary(mydata1$Middle_Price)

Min. 1st Qu. Median Mean 3rd Qu. Max.
13990 23220 31410 33850 40370 78800
抑或利用psych包计算更加多的统计量的方法：

> describe(mydata1$Middle_Price)

var n mean sd median trimmed mad min max range skew kurtosis
1 1 234 33846.43 13826.62 31412.5 32285.66 12361.18 13990 78800 64810 1.04 0.88
se
1 903.87

boxplot(mydata1$Middle_Price)

回归分析以及r语言实现（一）

另外可以通过boxplot.stats查看构建图形的统计量

> boxplot.stats(mydata1$Middle_Price)

$stats

[1] 13990.0 23200.0 31412.5 40425.0 64450.0

最低0.47元/天解锁文章

LT-CAT努力前进

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

LT-CAT努力前进 CSDN认证博客专家 CSDN认证企业博客

码龄8年

7: 原创

104万+: 周排名

38万+: 总排名

13万+: 访问

: 等级

1220: 积分

15: 粉丝

25: 获赞

2: 评论

79: 收藏

私信

关注

热门文章

分类专栏

sql sever 20篇
R 17篇
python算法 1篇
零基础学python 1篇

最新评论

ETL 浅谈
「已注销」: 博主写得很不错，分享是一种美德。大大的赞！加油。也希望博主坚持写下去。
PLSQL导出大量数据-超出excel限制,使用csv
Marydon: 博主，我有话要说： 1..xls格式（office 2003），只能容纳65536行数据； *.xlsx格式（office 2007及以上版本），最多可以容纳2^20行。 2.如果字段时number类型，用to_char(columnName)，转成字符类型，导出的时候，后面就不会自动加".00"了。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。