文章目录
一、简介
数据清洗 是数据科学中的关键一步,它涉及到处理数据空值、删除重复信息、提供正确的数据格式等等。数据清洗往往发生在一个项目最开始的阶段,经常用到的工具是 pandas,还会用到 numpy 和 sklearn 。
通常通过以下方法引入 pandas 和 numpy :
import pandas as pd
import numpy as np
二、数据鸟瞰和空值处理
1. 数据鸟瞰
通过以下方式查看dataframe中的一些例子:
df.head(n)#从顶部计数n
df.tail(n)#从底部计数n
df.sample(n)#可以进行随机抽样
通过以下方式查看dataframe的数值特征和摘要:
df.describe()
df.info()
2. 空值处理
通过以下方法查看dataframe中每列的的空值:
df.isnull().sum()
通过以下方法可以丢弃空值:
df.dropna(axis=0)
#如果axis = 0就丢弃有空值的行row
#如果axis = 1就丢弃有空值的列columns
通过以下方法填充空值:
df.fillna(
value = None,#value可以指定所填充的值
method = None,#method可以指定填充方法