dataprep.eda
在使用数据前,我们首先要做的是观察数据,包括查看数据的类型、数据的范围、数据的分布等。dataprep.eda是个非常不错的工具,它可以帮你快速生成数据概览。dataprep.eda包含的一些智能特性:
为每个 EDA 任务选择正确的图形来可视化数据
列类型推断(数字型、类别型和日期时间型)
选择合适的时间单位(用户也可以指定)
对数量庞大的类型数据输出清晰的可视化方案(用户也可以指定)
dataprep安装
安装dataprep仅需要执行pip instal dataprep即可,由于依赖比较多,安装过程比较慢,需要耐心等待。
如果报错,多半是权限问题,可以在后面加上–user
实例
为了看到这一点的实际应用,我们将使用一个泰坦尼克数据集,我们从数据集的概述开始:
from dataprep.eda import *
import pandas as pd
train_df = pd.read_csv(‘titanic/train.csv’)
train_df