Pandas数据处理:清洗与处理

本文介绍了使用Pandas处理数据集中的缺失值和重复数据的方法。通过DataFrame.isna()和fillna()处理缺失值,利用DataFrame.duplicated()和drop_duplicates()去除重复行,以及使用cut()进行数据分箱。此外,还讨论了异常值检测,包括Seaborn的Box Plot和Z Score方法。
摘要由CSDN通过智能技术生成

本文素材来源于towardsdatascience技术博客网站,经本人编辑首发于CSDN,仅供技术分享所用,不作商用。

原文地址:https://towardsdatascience.com/data-handling-using-pandas-cleaning-and-processing-3aa657dc9418

Mastering Pandas to Deal with ‘Dirty Data’

作者:Saptashwa
1
在做一些老的Kaggle项目练习时,我意识到在应用机器学习算法之前准备数据文件需要花费很多时间。这篇文章是之前一篇文章的后续,让初学者快速学习并掌握Pandas,以进阶到更高level的数据处理技术大神。让我们开始吧!

对于这篇文章,我使用IMDB电影数据集来涵盖最相关的数据清理和处理技术。我们可以先了解下这个数据集的有关信息,如下所示:

movies_df = pd.read_csv("movie_metadata.csv")
print "data-frame shape: ", movies_df.shape
>>> data-frame shape: (5043, 28)

所以,数据集有5043行,28列,我们可以检查列名:

print "column names: ", movies_df.columns.values
>>> column names:
['color' 'director_name' 'num_critic_for_reviews'
'duration'
 'director_facebook_likes' 'actor_3_facebook_likes'
'actor_2_name'
 'actor_1_facebook_likes' 'gross' 'genres'
'actor_1_name' 'movie_title'
 'num_voted_users' 'cast_total_facebook_likes'
'actor_3_name'
 'facenumber_in_poster' 'plot_keywords'
'movie_imdb_link'
 'num_user_for_reviews' 'language' 'country'
'content_rating' 'budget'
 'title_year' 'actor_2_facebook_likes' 'imdb_score'
'aspect_ratio'
 'movie_facebook_likes']

在我们应用一些机器学习算法进行预测之前,让我们说’imdb_score’,我们需要更多地调查数据集位,因为它不像Boston House Data-Set那样那么好处理。首先,我将讨论如何处理丢失的数据。

处理缺失数据:DataFrame.isna(),DataFrame.fillna()

我们可以使用pandas.DataFrame.isna()检测像object这样的数组的缺失值。这将返回一个布尔相同大小的对象,其中NA值(如None或numpy.NaN)将映射为True,其他所有值都映射为False。这与pandas.Data

  • 7
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值