datax到hive数据全部为空_Python入门:Pandas&Numpy(二)数据去重与缺失值处理...

当我们拿到一个数据集并对其展开分析时,常常会面临各种数据质量的问题。由于数据采集和传输过程中的各种问题,数据缺失和重复是最常见的两种数据质量问题。本文将以IMDB电影评分数据集为例,总结一些识别和处理数据缺失和重复的方法。

PS:本文是基于自己学习的学习过程总结而来,如有缺失或纰漏麻烦各位读者在评论里指出。

首先导入数据集和需要用到的pandas和numpy包,以及导入我们需要用到的数据包IMDB电影评分数据集。

import pandas as pd;
import numpy as np;
path='D:movies_csv.csv'
movies=pd.read_csv(path)
movies.head(5);

d834d7d2e9134e4c4ca7e68f0ce7de23.png

数据缺失

(一)数据缺失的检验

一般来说,数据集中的缺失值为nan这一特殊类型,我们想要先看看数据集整体的数据缺失情况,对数据集中所有值的isnull判断结果进行加和,就能得到数据集整体的数据缺失情况。

movies.isnull().sum()# 展示所有缺失情况

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值