好的数据集质量,决定后续模型的上限 (Better data leads to better models),那么怎么快速评估数据集的质量了?
本文分享的Facets,是一款由Google开源、快速评估数据集质量的神器;
Facets包含2个组件:
- facets overview:outlier检测、数据集间各特征分布比较
- facets dive:交互式探索某一特定数据细节。
安装
pip install facets-overview
facets overview
以一个案例简单介绍使用方法,
# 1、生成数据源
import pandas as pd
features = [
"Age", "Workclass", "fnlwgt", "Education", "Education-Num",
"Marital Status", "Occupation", "