机器学习过程中，我们该如何分析数据集？

第四范式天枢

于 2019-09-25 18:42:56 发布

阅读量2.8k

点赞数 2

分类专栏：技术研讨文章标签：机器学习数据挖掘推荐系统第四范式先荐

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FirstCilck/article/details/101379599

版权

探索性分析是机器学习的重要步骤，旨在深入了解数据集，包括数据清理灵感、特征工程启示和整体认识。本文讨论了分析数据集的原因，基础问题，数值和分类特征的分布，细分以及相关性研究。通过这些分析，可以发现异常值，稀疏类别，并为后续的数据清理和特征工程提供指导。先荐作为一款AI推荐系统，已助力多家媒体提升业务指标。

摘要由CSDN通过智能技术生成

拿到一个数据集，我们应该怎么做？

在这篇文章中，我们将深入探讨机器学习核心步骤中的第一步：探索性分析。

在正式开始前，千万不要把这一步与数据可视化或数据结果统计混淆——数据可视化或数据结果统计意味着结果。

恰当的探索性分析其实就是回答问题，就是从数据集中尽可能多地得到数据启发。

在这一篇中，我们会向大家说明在探索性分析过程中需要了解的内容。

为什么要先分析数据集？

探索性分析是为了更好地了解数据集。这样做可以使项目的其他环节运行更流畅：

1.获得有关数据清理的宝贵灵感（数据清理有可能会破坏模型）

2.获得特征工程的启发（可以使模型性能更好）

3.获得对数据集的感性认识（有助于最终的结果交流和影响传递）

机器学习所需要的探索性分析应该是快速、高效、果断的……我们不要卡在上面，花费太多时间，但是，也不能跳过这一步。

在这个过程中，我们会面对n多张图表，但是，只需要少数几张就可以充分了解所有数据并加以利用。

从基础开始

首先，我们需要回答关于数据集的一系列基本问题：

•有多少个观察组？

•有哪些特征？

•特征对应的数据类型是什么？是数字吗？可分类吗？

•是否有目标变量？

在这里插入图片描述
观察示例

最低0.47元/天解锁文章

第四范式天枢

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。