chapter.数据清洗1.2

1.3填充缺失值
当数据量不够或者其他部分信息很重要的时候,就不能删除数据了,这时需要对缺失值进行填充,通过fillna方法可以将缺失值替换为常数值。
例:

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理,即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)

在这里插入图片描述
使用fillna方法填充

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理,即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
data.fillna(0)#全部填充为0

在这里插入图片描述
当然在fillna中传入字典结构数据,可以针对不同列填充不同的值,fillna返回的是新对象,不会对原数据进行修改,可通过inplace就地进行修改。
例:

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理,即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
data.fillna({1:6,3:0})

在这里插入图片描述
还可以通过平均值来作为填充数

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理,即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
data.fillna(method='ffill')

在这里插入图片描述
2.移除重复数据
在爬取的数据中往往会出现重复数据,对于重复数据保留一份即可,其余可以移除,在DataFrame数据中,通过duplicated方法判断各行是否有重复数据。

data=DataFrame({
    '姓名':['小敏','晓明','小强','小红','晓明'],
    '年龄':['女','男','男','女','男'],
    '地址':['北京','南京','上海','广州','南京']
})
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame({
    '姓名':['小敏','晓明','小强','小红','晓明'],
    '年龄':['女','男','男','女','男'],
    '地址':['北京','南京','上海','广州','南京']
})

display(data)
data.duplicated()

在这里插入图片描述
通过drop_duplicates方法,可以删除多余的重复项

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame({
    '姓名':['小敏','晓明','小强','小红','晓明'],
    '年龄':['女','男','男','女','男'],
    '地址':['北京','南京','上海','广州','南京']
})

display(data)
data.drop_duplicates()

在这里插入图片描述
很显然这种情况下当每行的每个字段都相同时才会判断出为重复,这时可以通过指定部分作为判断重复项的依据。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame({
    '姓名':['小敏','晓明','小强','小红','晓明'],
    '年龄':['女','男','男','女','男'],
    '地址':['北京','南京','上海','广州','南京']
})

display(data)
data.drop_duplicates('年龄')

在这里插入图片描述
从结果可以看出,保留的数据为第一次出现的组合。传入keep=‘last’可以保留最后一个。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值