机器学习过程中,我们该如何分析数据集?

探索性分析是机器学习的重要步骤,旨在深入了解数据集,包括数据清理灵感、特征工程启示和整体认识。本文讨论了分析数据集的原因,基础问题,数值和分类特征的分布,细分以及相关性研究。通过这些分析,可以发现异常值,稀疏类别,并为后续的数据清理和特征工程提供指导。先荐作为一款AI推荐系统,已助力多家媒体提升业务指标。
摘要由CSDN通过智能技术生成

拿到一个数据集,我们应该怎么做?

在这篇文章中,我们将深入探讨机器学习核心步骤中的第一步:探索性分析。

在正式开始前,千万不要把这一步与数据可视化或数据结果统计混淆——数据可视化或数据结果统计意味着结果。

恰当的探索性分析其实就是回答问题,就是从数据集中尽可能多地得到数据启发。

在这一篇中,我们会向大家说明在探索性分析过程中需要了解的内容。

为什么要先分析数据集?

探索性分析是为了更好地了解数据集。这样做可以使项目的其他环节运行更流畅:

1.获得有关数据清理的宝贵灵感(数据清理有可能会破坏模型)

2.获得特征工程的启发(可以使模型性能更好)

3.获得对数据集的感性认识(有助于最终的结果交流和影响传递)

机器学习所需要的探索性分析应该是快速、高效、果断的……我们不要卡在上面,花费太多时间,但是,也不能跳过这一步。

在这个过程中,我们会面对n多张图表,但是,只需要少数几张就可以充分了解所有数据并加以利用。

从基础开始

首先,我们需要回答关于数据集的一系列基本问题:

•有多少个观察组?

•有哪些特征?

•特征对应的数据类型是什么?是数字吗?可分类吗?

•是否有目标变量?

在这里插入图片描述
观察示例

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值