Pandas数据处理：清洗与处理

最新推荐文章于 2024-08-18 20:40:19 发布

明柳梦少

最新推荐文章于 2024-08-18 20:40:19 发布

阅读量9.7k

点赞数 7

分类专栏：机器学习/数据挖掘/算法工程师高频面试题（Python）项目学习

本文链接：https://blog.csdn.net/u010636181/article/details/89961632

版权

本文介绍了使用Pandas处理数据集中的缺失值和重复数据的方法。通过DataFrame.isna()和fillna()处理缺失值，利用DataFrame.duplicated()和drop_duplicates()去除重复行，以及使用cut()进行数据分箱。此外，还讨论了异常值检测，包括Seaborn的Box Plot和Z Score方法。

摘要由CSDN通过智能技术生成

本文素材来源于towardsdatascience技术博客网站，经本人编辑首发于CSDN，仅供技术分享所用，不作商用。

原文地址：https://towardsdatascience.com/data-handling-using-pandas-cleaning-and-processing-3aa657dc9418

Mastering Pandas to Deal with ‘Dirty Data’

作者：Saptashwa

在做一些老的Kaggle项目练习时，我意识到在应用机器学习算法之前准备数据文件需要花费很多时间。这篇文章是之前一篇文章的后续，让初学者快速学习并掌握Pandas，以进阶到更高level的数据处理技术大神。让我们开始吧！

对于这篇文章，我使用IMDB电影数据集来涵盖最相关的数据清理和处理技术。我们可以先了解下这个数据集的有关信息，如下所示：

movies_df = pd.read_csv("movie_metadata.csv")
print "data-frame shape: ", movies_df.shape
>>> data-frame shape: (5043, 28)

所以，数据集有5043行，28列，我们可以检查列名：

print "column names: ", movies_df.columns.values

>>> column names:
['color' 'director_name' 'num_critic_for_reviews'
'duration'
 'director_facebook_likes' 'actor_3_facebook_likes'
'actor_2_name'
 'actor_1_facebook_likes' 'gross' 'genres'
'actor_1_name' 'movie_title'
 'num_voted_users' 'cast_total_facebook_likes'
'actor_3_name'
 'facenumber_in_poster' 'plot_keywords'
'movie_imdb_link'
 'num_user_for_reviews' 'language' 'country'
'content_rating' 'budget'
 'title_year' 'actor_2_facebook_likes' 'imdb_score'
'aspect_ratio'
 'movie_facebook_likes']

在我们应用一些机器学习算法进行预测之前，让我们说’imdb_score’，我们需要更多地调查数据集位，因为它不像Boston House Data-Set那样那么好处理。首先，我将讨论如何处理丢失的数据。