№ Два：衔接之前步骤进行探索性分析

最新推荐文章于 2024-01-16 13:27:52 发布

Flying-Marx

最新推荐文章于 2024-01-16 13:27:52 发布

阅读量180

点赞数

分类专栏： R语言机器学习大数据文章标签：机器学习大数据 r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/The_flying_Marx/article/details/108724118

版权

R语言同时被 3 个专栏收录

14 篇文章 1 订阅

订阅专栏

14 篇文章 0 订阅

订阅专栏

14 篇文章 0 订阅

订阅专栏

Сентябрь двадцать два

Во вторник

== Step 1==

首先，要在建立和训练随机森林模型、线性回归模型的数据分析之前，都要对数据进行剖析。
我们的目标是清楚数据是如何分布的，并做相应准备工作。

第一步，使用dim（）函数显示了数据行数及列数。
我们在获取数据集之后，数据可能会存在错误、缺失值。

> dim(PM2.5)

complete.cases函数提取没有空值的数据。
汇总PM2.5数据框中全部空值总数。

> sum(!complete.case(PM2.5))
[1] 4870

为了使数据一致，处理掉无效或缺失的数据非常便捷的将无缺失值的数据重新载入PM2.5的数据框中。

> PM2.5 <- PM2.5[complete.case(PM2.5),]

这时，再重新查看数据行数和列数。

再查看

== Step 2==

同样，我们也可以使用head（）函数以表格形式来显示数据前六行信息。

head

 > head(PM2.5)

第二步，利用summary（）函数，为每一个变量返回一组统计信息，因为主要数据变量都是数值型变量。

> summary(PM2.5)

所以这些变量都有:

最小值
下四分位数
中位数
平均数
上四分位数
最大值

因为之前已经做过数据清洗，所以看不到NA符号，为了保持探究数据的严谨性，会在每组变量最大值后显示缺失值的个数。

综上，原始数据共35064条数据，清洗过后剩余30194条数据，数据缺失值占原始数据的13.889%，完整数据占原始数据的86.111%，所以，进行数据清洗是非常有必要的。

                                         >结束<

相关链接：

A!-数据集做简单数据分析-前期准备: https://blog.csdn.net/The_flying_Marx/article/details/108582300.

один！-载入数据集： https://blog.csdn.net/The_flying_Marx/article/details/108723416.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
№ Два：衔接之前步骤进行探索性分析

Сентябрь двадцать дваВо вторник== Step 1==首先，要在建立和训练随机森林模型、线性回归模型的数据分析之前，都要对数据进行剖析。我们的目标是清楚数据是如何分布的，并做相应准备工作。第一步，使用dim（）函数显示了数据行数及列数。我们在获取数据集之后，数据可能会存在错误、缺失值。> dim(PM2.5)complete.cases函数提取没有空值的数据。汇总PM2.5数据框中全部空值总数。> sum(!complete.ca
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。