数据分析----数据清洗

本文介绍了数据分析中数据清洗的重要性和基本步骤。内容包括数据的完整性检查,如处理空行和缺失值;全面性检查,如确保列数据单位一致;合法性检查,删除非ASCII字符;以及唯一性检查,处理重复和多参数记录。通过'完全合一'原则,即完整性、全面性、合法性、唯一性,可以有效地提升数据质量。
摘要由CSDN通过智能技术生成

一、导入数据

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
import xlrd
df = DataFrame(pd.read_excel('datas/grades.xlsx')) 
print(df)
   	Unnamed: 0  Unnamed: 1  Unnamed: 2  Unnamed: 3    
    0         蒋广佳        43.0        69.0        61.0   
    1          廖菲        80.0        64.0        62.0    
    2         沈秀玲        68.0        74.0        98.0    
    3          韦丹        48.0        53.0        64.0    
    4         张梦雅        72.0        73.0        96.0   
    5         赵雅欣        60.0         NaN        70.0    
  • 我们可以看见上面的数据是缺少标注的,列名缺少标注;并且有很多是空值,因此我们要对数据进行清洗,提高数据的质量。在这里数据清洗有四个要点简称“完全合一”
    • 整性:单条数据是否完整,统计的字段是否完善。
    • 面性:观察某一列的全部数值,选中一列,我们可以看到最大值,最小值,平均值。我们可以通过常识判断数据是否合理,比如:数据定义、单位标识、数值本身。
    • 法性:数据的类型、内容、大小的合法性。比如数据中存在非ASCII字符,性别存在未知,总分超过100等。
    • 性:数据是否存在重复记录,由于数据来源于不同的渠道,重复的情况是非常常见的。行数据、列数据都需要是唯一的。- 事实上数据清洗的标准有差不多七八条,有兴趣的可以了解一下,这里归纳为“完全合一”四条,按照这四条基本上可以解决数据清洗中的大部分问题,使得数据标准、干净、连续

二、开始数据清洗

1、完整性

problem 1:空行

  • solution: 删除
df.dropna(how
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值