chapter.数据清洗1.2

最新推荐文章于 2022-04-09 13:36:27 发布

「已注销」

最新推荐文章于 2022-04-09 13:36:27 发布

阅读量132

点赞数 1

本文链接：https://blog.csdn.net/qq_44862120/article/details/105296922

版权

1.3填充缺失值
当数据量不够或者其他部分信息很重要的时候，就不能删除数据了，这时需要对缺失值进行填充，通过fillna方法可以将缺失值替换为常数值。
例：

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理，即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)

在这里插入图片描述
使用fillna方法填充

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理，即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
data.fillna(0)#全部填充为0

在这里插入图片描述
当然在fillna中传入字典结构数据，可以针对不同列填充不同的值，fillna返回的是新对象，不会对原数据进行修改，可通过inplace就地进行修改。
例：

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理，即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
data.fillna({1:6,3:0})

在这里插入图片描述
还可以通过平均值来作为填充数

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理，即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
data.fillna(method='ffill')

在这里插入图片描述
2.移除重复数据
在爬取的数据中往往会出现重复数据，对于重复数据保留一份即可，其余可以移除，在DataFrame数据中，通过duplicated方法判断各行是否有重复数据。

data=DataFrame({
    '姓名':['小敏','晓明','小强','小红','晓明'],
    '年龄':['女','男','男','女','男'],
    '地址':['北京','南京','上海','广州','南京']
})

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame({
    '姓名':['小敏','晓明','小强','小红','晓明'],
    '年龄':['女','男','男','女','男'],
    '地址':['北京','南京','上海','广州','南京']
})

display(data)
data.duplicated()

在这里插入图片描述
通过drop_duplicates方法，可以删除多余的重复项

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame({
    '姓名':['小敏','晓明','小强','小红','晓明'],
    '年龄':['女','男','男','女','男'],
    '地址':['北京','南京','上海','广州','南京']
})

display(data)
data.drop_duplicates()

在这里插入图片描述
很显然这种情况下当每行的每个字段都相同时才会判断出为重复，这时可以通过指定部分作为判断重复项的依据。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame({
    '姓名':['小敏','晓明','小强','小红','晓明'],
    '年龄':['女','男','男','女','男'],
    '地址':['北京','南京','上海','广州','南京']
})

display(data)
data.drop_duplicates('年龄')

在这里插入图片描述
从结果可以看出，保留的数据为第一次出现的组合。传入keep=‘last’可以保留最后一个。

「已注销」

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
chapter.数据清洗1.2

1.3填充缺失值当数据量不够或者其他部分信息很重要的时候，就不能删除数据了，这时需要对缺失值进行填充，通过fillna方法可以将缺失值替换为常数值。例：import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataF...
复制链接

扫一扫