文 / Google Big Picture 团队高级软件工程师 James Wexler
要通过机器学习 (ML) 模型取得最佳结果,您需要真正理解您的数据。然而,机器学习数据集可能包含数以亿计的数据点,每个数据点又都包含数百个(甚或数千个)特性,因此,直观地理解整个数据集几乎是不可能的。可视化工具有助于发现大型数据集的微妙之处并从中发现真知灼见。一张图片传达的信息胜过千言万语,而一个直观的可视化工具则更胜一筹。
在执行 PAIR 计划的过程中,我们发布了 Facets,一个用于帮助理解和分析机器学习数据集的开放源代码可视化工具。
可使用 Facets Overview 了解数据的每个具体特性,或使用 Facets Dive 探究个别观察的数据集。这些可视化选择允许您调试您的数据,这在机器学习中与调试您的模型一样重要。您可在 Jupyter notebooks 内部轻松使用它们,也可将其嵌入网页。除开放源代码外,我们还创建了一个 Facets 演示网站:
https://pair-code.github.io/facets
此网站允许任何人直接在浏览器中可视化他们自己的数据集,而不必安装或设置任何软件,甚至不需要数据离开您的计算机。
Facets Overview
Facets Overview 自动帮助用户快速理解其数据集特性的值分布。可在同一个可视化视图中比较多个数据集(如训练集和测试集)。妨碍机器学习的常见数据问题被推到前端,例如,异常的特性值、缺失值比例很高的特性、分布不均的特性&#