1.3填充缺失值
当数据量不够或者其他部分信息很重要的时候,就不能删除数据了,这时需要对缺失值进行填充,通过fillna方法可以将缺失值替换为常数值。
例:
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理,即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
使用fillna方法填充
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理,即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
data.fillna(0)#全部填充为0
当然在fillna中传入字典结构数据,可以针对不同列填充不同的值,fillna返回的是新对象,不会对原数据进行修改,可通过inplace就地进行修改。
例:
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理,即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
data.fillna({1:6,3:0})
还可以通过平均值来作为填充数
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame(np.arange(12).reshape(3,4))
display(data)
#对数据进行处理,即创建一些为缺失值的数据
data.loc[1,:]=np.nan
data[2]=np.nan
display(data)
data.fillna(method='ffill')
2.移除重复数据
在爬取的数据中往往会出现重复数据,对于重复数据保留一份即可,其余可以移除,在DataFrame数据中,通过duplicated方法判断各行是否有重复数据。
data=DataFrame({
'姓名':['小敏','晓明','小强','小红','晓明'],
'年龄':['女','男','男','女','男'],
'地址':['北京','南京','上海','广州','南京']
})
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame({
'姓名':['小敏','晓明','小强','小红','晓明'],
'年龄':['女','男','男','女','男'],
'地址':['北京','南京','上海','广州','南京']
})
display(data)
data.duplicated()
通过drop_duplicates方法,可以删除多余的重复项
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame({
'姓名':['小敏','晓明','小强','小红','晓明'],
'年龄':['女','男','男','女','男'],
'地址':['北京','南京','上海','广州','南京']
})
display(data)
data.drop_duplicates()
很显然这种情况下当每行的每个字段都相同时才会判断出为重复,这时可以通过指定部分作为判断重复项的依据。
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
from IPython.display import display
data=DataFrame({
'姓名':['小敏','晓明','小强','小红','晓明'],
'年龄':['女','男','男','女','男'],
'地址':['北京','南京','上海','广州','南京']
})
display(data)
data.drop_duplicates('年龄')
从结果可以看出,保留的数据为第一次出现的组合。传入keep=‘last’可以保留最后一个。