在机器学习任务中,数据集的质量优劣对数据分析的结果影响非常大,所谓Garbage in, garbage out,数据决定模型的上限,因此数据质量成为数据分析流程不可或缺的一个环节。即使是像Kaggle那样主办方已经把数据集准备好的场景,也需要评估train set和test set的分布是否一致,存不存在偏斜等。如果两者不一致,可能会导致离线cv分数非常高,可是在leaderborad却下跌了很多,以至于大量花在模型调参上的功夫其实都白费了。
本文不对数据采集的过程深入探讨,即不讨论怎么在数据采集过程中保证数据的准确性;而是聚焦在对现有的数据集,如何快速高效地评估数据集的质量,找出数据集中存在的瑕疵问题。
通常我们使用pandas手工地检查数据集,不停地做出假设然后验证;现在介绍给大家一个神器:Facets
Facets
Facets是Google的一个开源项目,用于帮助理解和分析机器学习数据集的可视化工具。该项目使用基于Typescript编写的PloymerWeb组件,可以轻松地嵌入到Jupyter notebook或网页。
Facets包含2个可视化组件:Overview 和 Dive。可使用Overview了解数据集每个特征的分布,或使用Dive研究个别样本的细节。这两个组件让你可以轻松地调试自己的数据,这在机器学习中与调试模型一样重要。
若想通过机器学习得到理想的结果,需要深入地理解数据。然而数据集可能包含数以亿计的数据点,每个数据点又包含数百个(甚或数千个)特征,因此,直观地理解整个数据集几乎是不可能的。可视化工具有助于发现大型数据集的微妙之处并从中发现真知灼见。一张图片传达的信息胜过千言万语,而一个直观的可视化工具则更胜一筹。
Facets自动帮助用户快速理解其数据集特征的分布情况,并且能够在同一个视图中比较多个数据集(如训练集和测试集)。将妨碍机器学习过程的常见数据问题暴露到眼前,例如,异常的特性值、缺失值比例很高的特征、分布不均的特征,以及数据集之间偏态分布的特征。
在图表中,这些特征按照"不均匀性"排序,分布最不均匀的特征位于顶部。红色的数字则暗示可能的故障点,例如 高比例的缺失值、同一特征在不同数据集之间分布差异很大等
有两种使用Facets的方法: