Kaggle竞赛神器—Facets:快速评估数据集质量,把控数据分析核心环节

在机器学习任务中,数据集的质量优劣对数据分析的结果影响非常大,所谓Garbage in, garbage out,数据决定模型的上限,因此数据质量成为数据分析流程不可或缺的一个环节。即使是像Kaggle那样主办方已经把数据集准备好的场景,也需要评估train set和test set的分布是否一致,存不存在偏斜等。如果两者不一致,可能会导致离线cv分数非常高,可是在leaderborad却下跌了很多,以至于大量花在模型调参上的功夫其实都白费了。


本文不对数据采集的过程深入探讨,即不讨论怎么在数据采集过程中保证数据的准确性;而是聚焦在对现有的数据集,如何快速高效地评估数据集的质量,找出数据集中存在的瑕疵问题。


通常我们使用pandas手工地检查数据集,不停地做出假设然后验证;现在介绍给大家一个神器:Facets


Facets


Facets是Google的一个开源项目,用于帮助理解和分析机器学习数据集的可视化工具。该项目使用基于Typescript编写的PloymerWeb组件,可以轻松地嵌入到Jupyter notebook或网页。


Facets包含2个可视化组件:OverviewDive可使用Overview了解数据集每个特征的分布,或使用Dive研究个别样本的细节。这两个组件让你可以轻松地调试自己的数据,这在机器学习中与调试模型一样重要。


若想通过机器学习得到理想的结果,需要深入地理解数据。然而数据集可能包含数以亿计的数据点,每个数据点又包含数百个(甚或数千个)特征,因此,直观地理解整个数据集几乎是不可能的。可视化工具有助于发现大型数据集的微妙之处并从中发现真知灼见。一张图片传达的信息胜过千言万语,而一个直观的可视化工具则更胜一筹。


Facets自动帮助用户快速理解其数据集特征的分布情况,并且能够在同一个视图中比较多个数据集(如训练集和测试集)。将妨碍机器学习过程的常见数据问题暴露到眼前,例如,异常的特性值、缺失值比例很高的特征、分布不均的特征,以及数据集之间偏态分布的特征。


640?wx_fmt=jpeg
Overview展示了训练集和测试集的分布

在图表中,这些特征按照"不均匀性"排序,分布最不均匀的特征位于顶部。红色的数字则暗示可能的故障点,例如 高比例的缺失值、同一特征在不同数据集之间分布差异很大等


有两种使用Facets的方法:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值