【Python】机器学习自动化数据分析库-dataprep

公众号:尤而小屋
作者:Peter
编辑:Peter

dataprep是一个开源的Python第三方库,有助于数据科学者、数据挖掘/分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。

91dd599fa85f53391ad9a1bfbc1af7b7.png

在本文中小编给大家详细介绍dataprep库的使用。

官网地址:https://dataprep.ai/

GitHub地址:https://github.com/sfu-db/dataprep

9f2b04299086912af54e9632fc6d5a66.png

安装

在使用之前,先进行安装:建议使用豆瓣源安装,快速!

pip install -i https://pypi.douban.com/simple/ dataprep

导入库

先导入我们需要使用的库:

from dataprep.datasets import load_dataset  # 内置数据集
from dataprep.eda import plot # 绘图
from dataprep.eda import plot_correlation # 相关性
from dataprep.eda import create_report  # 分析报告
from dataprep.eda import plot_missing  # 缺失值

导入数据

提供两种数据导入方式:

  • 内置数据集(如果有)

  • 本地数据集

# 导入内置数据
df = load_dataset("titanic")  
# 导入本地数据
# df = pd.read_csv("titanic.csv")

df.head()

查看数据的基本信息:

In [3]:

df.shape

Out[3]:

(891, 12)

In [4]:

df.isnull().sum()

Out[4]:

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [5]:

df.dtypes

Out[5]:

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

使用dataprep自动化探索

整体数据分析

In [6]:

plot(df)

04c00f77525ca37d100e946c5c868741.png

指定单个字段分析

In [7]:

plot(df, "Age")

直接指定Age字段:

16a9960938055477e3bb68c15bcc35fa.png

0038922180fd1ebd7018324c02bc0e8a.png

ea497dc852376cc82b5b99d02ce5f5a9.png

072f7fbc6bc2a89ca6f7022a126e810b.png

f3ebd762430b0a4d223077279c6717b2.png

2e94c1e7160396fb71e2d2e024c387b2.png

指定多个字段分析

In [8]:

plot(df, "Age","Embarked")

查看两个字段之间的分析:

1df39a79267ebbee34fde16b1ff064ce.png

18479d58c8c255a4622211af80807ede.png

相关系数

In [9]:

plot_correlation(df)  # 相关系数

查看字段的3种相关系数:Stats

8781ba070d94daecb72a9ce953cab682.png

b1fe5c434d591d5cd46e49d588ecc064.png

9ee36ed59efc4accde1cb322d2195ee1.png

66fb3b55761f1a0bb73c3285ab2e3b17.png

缺失值

In [10]:

plot_missing(df)  # 缺失值情况

查看数据的缺失值信息:

d3444a7846615c41e5e94147a5b7a39c.png

主要分柱状图、谱图、热力图、层次图来显示

b10f8a54981160705bd5a860e6211966.png

969737abee053c2409c763ee99bc99f1.png

6a67b124f4d042cb0409a422b0230d31.png

b0f8d806db44bd8d57ba3de154a7cc3f.png

分析报告

In [11]:

create_report(df).show()  # 报告

返回数据的整体分析报告(整个图):

7fed6e6e1adc64330ee9289cffbfc157.png

aa859890c780512fa465d292b335e34a.png

52c94e267c2c857016f47ccfd6716d75.png

3f806346ad9f111b2fe0d9124ac3fb44.png

b8546fb8bf282fae2c7a48dd13ea5f8a.png

1179ef8b876281218d20c0685a7bfe4a.png

c02a91768390bf9fab60ad43ec9a140c.png

 
 

252b1cb47eff9c6d0e0dc9802215941a.jpeg

 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值