当我们拿到一个数据集并对其展开分析时,常常会面临各种数据质量的问题。由于数据采集和传输过程中的各种问题,数据缺失和重复是最常见的两种数据质量问题。本文将以IMDB电影评分数据集为例,总结一些识别和处理数据缺失和重复的方法。
PS:本文是基于自己学习的学习过程总结而来,如有缺失或纰漏麻烦各位读者在评论里指出。
首先导入数据集和需要用到的pandas和numpy包,以及导入我们需要用到的数据包IMDB电影评分数据集。
import pandas as pd;
import numpy as np;
path='D:movies_csv.csv'
movies=pd.read_csv(path)
movies.head(5);
![d834d7d2e9134e4c4ca7e68f0ce7de23.png](https://i-blog.csdnimg.cn/blog_migrate/53845e5cbac36257a560aae87c57e10d.jpeg)
数据缺失
(一)数据缺失的检验
一般来说,数据集中的缺失值为nan这一特殊类型,我们想要先看看数据集整体的数据缺失情况,对数据集中所有值的isnull判断结果进行加和,就能得到数据集整体的数据缺失情况。
movies.isnull().sum()# 展示所有缺失情况