多数据不可避免的会遗失掉,或者采集的时候采集对象不愿意透露,这就造成了很多NaN(Not a Number)的出现。这些NaN会造成大部分模型运行出错,所以对NaN的处理很有必要。解决方法:1、简单粗暴地去掉1)有如下dataframe,先用df.isnull().sum()检查下哪一列有多少
不可避免地会丢失很多数据,或者收集对象在收集数据时不愿意透露它,从而导致出现大量的NaN(非数字)。 这些NaN将导致大多数模型运行错误,因此有必要处理NaN。
解决方案:
1,简单而又无礼地删除
1)有以下数据框,首先使用df.isnull() 。 sum()检查哪一列有多少个NaN:
将熊猫作为pd
df = pd.DataFrame({'a':[None,1,2 ,3],'b':[4,None,None,6],'c':[1,2,1,2],'d':[7,7,9,2]})
print(df)
print(df.isnull()。sum())
输出:
p1.jpg
2)删除包含NaN的列:
data_without_NaN = df.dropna(axis = 1)
[ k0]
python课程免费试用预约
region:
北京
天津
上海
江苏
浙江
山东
江西
安徽
广东
广西
海南
辽宁
吉林
黑龙江
内蒙古
山西
福建
河南
河北
湖南
湖北
四川
重庆
云南
贵州
新疆
西藏
陕西
青海
宁夏
甘肃
名称:
移动电话:
提交
打印(data_without_NaN)
2,缺失值插值方法
在许多情况下,直接删除列会丢失很多有价值的数据,这不利于 模型训练。
因此,您可以考虑将NaN替换为某些数字。 显然,您不能随便更换它们。 有些人喜欢将其替换为0,并且它们往往是多余的。
例如,调查工资收入与教育水平之间的关系,有些人不想透露工资水平,但是如果将这些NaN设置为0,则显然会失真。 因此,Python具有插补方法。 代码如下:来自sklearn.preprocessing import的
Imputer
my_imputer = Imputer()
data_imputed = my_imputer.fit_transform( df)
print(type(data_imputed))
#数组转换为df
df_data_imputed = pd.DataFrame(data_imputed,columns = df。列)
打印(df_data_imputed)