关于缺失值(missing value)的处理
在sklearn的preprocessing包中包含了对数据集中缺失值的处理,主要是应用Imputer类进行处理。
首先需要说明的是,numpy的数组中可以使用np.nan/np.NaN(Not A Number)来代替缺失值,对于数组中是否存在nan可以使用np.isnan()来判定。
使用type(np.nan)或者type(np.NaN)可以发现改值其实属于float类型,代码如下:
1
2
3
4
5
6
7
8
|
>>>
type
(np.NaN)
<
type
'float'
>
>>>
type
(np.nan)
<
type
'float'
>
>>> np.NaN
nan
|