Kaggle竞赛神器—Facets：快速评估数据集质量，把控数据分析核心环节

最新推荐文章于 2024-03-28 17:46:54 发布

Datawhale

最新推荐文章于 2024-03-28 17:46:54 发布

阅读量148

点赞数

本文链接：https://blog.csdn.net/Datawhale/article/details/99712097

版权

在机器学习任务中，数据集的质量优劣对数据分析的结果影响非常大，所谓Garbage in, garbage out，数据决定模型的上限，因此数据质量成为数据分析流程不可或缺的一个环节。即使是像Kaggle那样主办方已经把数据集准备好的场景，也需要评估train set和test set的分布是否一致，存不存在偏斜等。如果两者不一致，可能会导致离线cv分数非常高，可是在leaderborad却下跌了很多，以至于大量花在模型调参上的功夫其实都白费了。

本文不对数据采集的过程深入探讨，即不讨论怎么在数据采集过程中保证数据的准确性；而是聚焦在对现有的数据集，如何快速高效地评估数据集的质量，找出数据集中存在的瑕疵问题。

通常我们使用pandas手工地检查数据集，不停地做出假设然后验证；现在介绍给大家一个神器：Facets

Facets

Facets是Google的一个开源项目，用于帮助理解和分析机器学习数据集的可视化工具。该项目使用基于Typescript编写的PloymerWeb组件，可以轻松地嵌入到Jupyter notebook或网页。

Facets包含2个可视化组件：Overview 和 Dive。可使用Overview了解数据集每个特征的分布，或使用Dive研究个别样本的细节。这两个组件让你可以轻松地调试自己的数据，这在机器学习中与调试模型一样重要。

若想通过机器学习得到理想的结果，需要深入地理解数据。然而数据集可能包含数以亿计的数据点，每个数据点又包含数百个（甚或数千个）特征，因此，直观地理解整个数据集几乎是不可能的。可视化工具有助于发现大型数据集的微妙之处并从中发现真知灼见。一张图片传达的信息胜过千言万语，而一个直观的可视化工具则更胜一筹。

Facets自动帮助用户快速理解其数据集特征的分布情况，并且能够在同一个视图中比较多个数据集（如训练集和测试集）。将妨碍机器学习过程的常见数据问题暴露到眼前，例如，异常的特性值、缺失值比例很高的特征、分布不均的特征，以及数据集之间偏态分布的特征。

Overview展示了训练集和测试集的分布

在图表中，这些特征按照"不均匀性"排序，分布最不均匀的特征位于顶部。红色的数字则暗示可能的故障点，例如高比例的缺失值、同一特征在不同数据集之间分布差异很大等

有两种使用Facets的方法：

最低0.47元/天解锁文章

Datawhale

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kaggle竞赛神器—Facets：快速评估数据集质量，把控数据分析核心环节

在机器学习任务中，数据集的质量优劣对数据分析的结果影响非常大，所谓Garbage in, garbage out，数据决定模型的上限，因此数据质量成为数据分析流程不可或缺...
复制链接

扫一扫