当你拿到一个数据集的时候,以及当你处理完数据时,你要把数据喂入模型中去,这时候可能会出现各种各样的问题,其中最常遇到的就是数据无法处理,即数据类型不匹配问题,例如,你要求某一特征的最大值,结果该特征的特征值是str类型的。这时候,我们就需要对数据集的书友类型有一个整体的把握。
http://df.info()函数可以帮助我们查看数据集中各个特征的特征值类型,帮助我们避开坑,顺利送入模型中。
当我们想要转换某一列的类型时,使用如下命令:
df.列名称 = df.列名称.astype(想要转换的类型)
如此即得到了我们需要的数据类型。
还有一个非常需要注意的地方就是检测特征里面是否有nan,以及如何处理他,一般如果数据量小,我们可以将其删除,如果数据量大,我们可以将其作为一个特征处理。
如何检测数据集中是否含有nan?
# 查看每一列是否有NaN: df.isnull().any(axis=0) # 查看每一行是否有NaN: df.isnull().any(axis=1) # 查看所有数据中是否有NaN最快的: df.isnull().values.any()
参考链接:https://www.cnblogs.com/songdanzju/p/7497566.html
如何删除呢?