datax到hive数据全部为空_Python入门：Pandas&Numpy（二）数据去重与缺失值处理...

最新推荐文章于 2022-10-23 12:08:19 发布

weixin_39597868

最新推荐文章于 2022-10-23 12:08:19 发布

阅读量255

点赞数

文章标签： datax到hive数据全部为空

本文链接：https://blog.csdn.net/weixin_39597868/article/details/112247461

版权

当我们拿到一个数据集并对其展开分析时，常常会面临各种数据质量的问题。由于数据采集和传输过程中的各种问题，数据缺失和重复是最常见的两种数据质量问题。本文将以IMDB电影评分数据集为例，总结一些识别和处理数据缺失和重复的方法。

PS：本文是基于自己学习的学习过程总结而来，如有缺失或纰漏麻烦各位读者在评论里指出。

首先导入数据集和需要用到的pandas和numpy包，以及导入我们需要用到的数据包IMDB电影评分数据集。

import pandas as pd;
import numpy as np;
path='D:movies_csv.csv'
movies=pd.read_csv(path)
movies.head(5);

（一）数据缺失的检验

一般来说，数据集中的缺失值为nan这一特殊类型，我们想要先看看数据集整体的数据缺失情况，对数据集中所有值的isnull判断结果进行加和，就能得到数据集整体的数据缺失情况。

movies.isnull().sum()# 展示所有缺失情况

关注

datax到hive数据全部为空_Python入门：Pandas&amp;Numpy（二）数据去重与缺失值处理...