【Python】懒人专用数据竞赛工具包!

作者:Klib

懒人专用数据竞赛工具包-Klib


简介

7249424d34ac92086b1409e36be3f704.png

klib 是一个用于导入、清理、分析和预处理数据的Python库。

1. 自动进行数据质量评估

  • 直接使用klib的缺失值统计函数进行数据质量评估。

import klib
import pandas as pd

df = pd.read_csv("NFL_DATASET.csv")
klib.missingval_plot(df)

b8b0ad4b4dab6872c652770449a989ed.png

2. 数据清洗

  1. 清理列名(colume name):通过格式化、拆分等方式统一列名,将CamelCase转换为camel_case,移除特殊字符以及前导和尾随空格,并将所有列名格式化为小写和下划线分隔。这还会检查和修复重复的列名,有时从文件中读取数据时会出现这种情况。

  2. 删除空列和几乎空列:可以使用参数drop_threshold_cols和drop_threshold_rows来调整删除操作以满足您的需求。默认情况下,会删除具有超过90%缺失值的列和行。

  3. 删除只有一个值的列:删除其中每个单元格都包含相同值的列。

  4. 删除重复的行:这是一个简单的丢弃完全重复行的操作。如果你处理的数据中重复行有价值,可以考虑将 drop_duplicates=False。

  5. 减少内存占用,从而加快工作流程中后续步骤的速度,klib.data_cleaning() 还会优化数据类型

df_cleaned = klib.data_cleaning(df)

3.数据分析

3.1 相关性分析

使用klib.corr_plot()等函数,将拆分参数设置为“pos”、“neg”、“high”或“low”,并在需要时结合阈值,让我们能够深入挖掘并突出显示最重要的方面。

7e86d174e28e78f0c191996859b34ef0.png

3.2 类别特征分析

klib.cat_plot(df_cleaned)

eb4db320e689a6428114cb4e6bc2426e.png

小结

11b967c2e40c30ffded6880b3b5b406f.png

Klib极大地方便了数据清洗和可视化工作,当然Klib具有比我们上面所描述的更多功能和设置。有兴趣的朋友可以参考对应的文档。

参考文献

9aa7ce6b3f3f69b832a21572cf547d82.png

  1. https://medium.com/towards-data-science/speed-up-your-data-cleaning-and-preprocessing-with-klib-97191d320f80

  2. https://github.com/attractivechaos/klib

  3. https://pypi.org/project/klib/

 
 
 
 

b86b5f625c3a0928a103ef00231cf186.jpeg

 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
  • 交流群

欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961)

ef13d38249490e120305f59f880579bd.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值