数据探索与可视化

你的名字·

已于 2024-05-12 15:19:49 修改

阅读量189

点赞数 10

文章标签：机器学习人工智能

于 2024-05-11 16:42:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2202_75530902/article/details/138558650

版权

目录

一、什么是数据探索？

二、什么是可视化？

1、缺失值处理：

2、简单的缺失值处理方法：

（1）.首先我们读取并查看这个数据集：

（2）.然后我们再用pd.isna()判断a的每个元素是否为缺失值：

（3）.然后再用sum()方法对每列求和，计算出每列缺失值的数量：

3、对缺失值进行插补：

（1）使用缺失值前面的值进行填充：

（2）使用缺失值后面的值进行填充：

（3）使用均值进行填充：

前言

如果将文本数据与图表数据相比较，人类的思维模式更适合于理解后者，原因在于图表数据更加直观且形象化，它对于人类视觉的冲击更强，这种使用图表来表示数据的方法被叫做数据可视化。

一、什么是数据探索？

在前面我们说到，所谓机器学习，就是用已知的数据通过算法去预测未来未知的数据。但是这个过程进行的前提就是要保证已知数据的完成性。所以数据探索，就是检查数据是否完整，是否有缺失值。

二、什么是可视化？

可视化就是将数据以图像的形式呈现出来，例如散点图、直方图、正态图等等，这些都是将单纯的数据以图像的形式呈现，从而可以起到更清晰有效地传达、沟通并辅助数据分析的作用。

1、缺失值处理：

数据缺失：指在数据采集、传输和处理等过程中，由于某些原因导致数据不完整的情况。

下面学习一下缺失值的处理方法

2、简单的缺失值处理方法：

在处理缺失值之前，我们肯定要有缺失值才能处理，所以我们第一步是去检查数据中有没有缺失值。

发现数据中的缺失值：在这里我们要用到一个数据集，通过这个数据集来介绍发现缺失值的方法。

（1）.首先我们读取并查看这个数据集：

（2）.然后我们再用pd.isna()判断a的每个元素是否为缺失值：

（3）.然后再用sum()方法对每列求和，计算出每列缺失值的数量：

从结果中我们可以看到，SeaSurFaceTemp有3个缺失值，AirTemp有81个缺失值，Humidity有93个缺失值。

虽然我们已经知道了数据集中每列缺失值的数量，但是我们还不知道它们具体的分布情况（缺失值在哪一行）。

于是，我们可以使用mano.matrix()可视化出缺失值在数据中的分布情况。

3、对缺失值进行插补：

首先我们要使用散点图可视化出剔除带有缺失值行后，AirTemp和Humidity变量的数据分布。

这里直接对原始数据可视化也可以，这是因为plt.scatter()函数会自动地不显示带有缺失值的点。

对缺失值填充，pandas库提供了数据表的fillna()方法，该方法可通过参数method设置缺失值的填充方式。method=“ffill”，使用缺失值前面的值进行填充；method=“bfill”，使用缺失值后面的值进行填充

（1）使用缺失值前面的值进行填充：

关于~index，我们知道index是缺失值所在的位置，那么~index就是非缺失值所在的位置。

（2）使用缺失值后面的值进行填充：

我们只需将上面代码中参数“method”的值改成bfill就行了

（3）使用均值进行填充：

跟上面的代码也差不多，再对这两列求个均值就行了.

从上面三种简单的填充方式的结果图可以看出，红色并没有起到填充的作用（红色分布太规律了，并且很“单独”），这是因为这三种方法只是简单地分析一个变量，没有从整体出发。下面，我们来学习一下比较复杂的填充方法，它们都能考虑到数据的整体情况。

本篇文章链接：数据探索与可视化-CSDN博客

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据探索与可视化

在前面我们说到，所谓机器学习，就是用已知的数据通过算法去预测未来未知的数据。从结果中我们可以看到，SeaSurFaceTemp有3个缺失值，AirTemp有81个缺失值，Humidity有93个缺失值。、直方图、正态图等等，这些都是将单纯的数据以图像的形式呈现，从而可以起到更清晰有效地传达、沟通并辅助数据分析的作用。虽然我们已经知道了数据集中每列缺失值的数量，但是我们还不知道它们具体的分布情况（缺失值在哪一行）。于是，我们可以使用mano.matrix()可视化出缺失值在数据中的分布情况。
复制链接

扫一扫

你的名字· CSDN认证博客专家 CSDN认证企业博客

码龄1年

4: 原创

128万+: 周排名

16万+: 总排名

790: 访问

: 等级

50: 积分

4: 粉丝

17: 获赞

1: 评论

5: 收藏

私信

关注

热门文章

最新评论

数据探索与可视化
CSDN-Ada助手: 恭喜作者在数据探索与可视化领域又有了新的成果！持续创作真的很了不起。在下一步的创作中，或许可以尝试挑选一些特别的数据集或者采用一些新颖的可视化方式，让读者们更加深入地了解数据背后的故事。期待作者在未来的博客中继续展现自己的才华！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
python数据分析的Pandas
CSDN-Ada助手: 恭喜你写了这篇关于Python数据分析的博客！Pandas确实是一个非常强大的工具，它可以帮助我们更轻松地处理和分析数据。我希望你能继续保持创作的热情，分享更多关于数据分析的知识和经验。对于下一步的创作建议，或许你可以考虑介绍一些Pandas的高级功能，或者与其他数据分析工具的结合应用，这样能够更加丰富你的读者的学习体验。谢谢你的分享，期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

你的名字· 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。