有些实际数据往往为空,这时候需要指定为一类,比如“other”,也有其他插值方法,比如取相邻的类别,都有瑕疵。
本文暂指定为“other”
1-取df的其中几行数据,即便是一行数据,比如第100行,也要有:,此时index是99,偷吃了index为100的,
df2=data[800:810]
df2=data[99:100]
2-空值判断,因为事先知道数据类型都是字符串,所以不是字符串的都是空值,NULL在pd中读取为浮点型的nan
df2.iloc[0,3]='other'
0,3即是行和列的index,
3-那么问题来了,如何知道df的index,如果不用np的话,其实df本身也是有shape的,差点就用np,那样麻烦了
>>> df2.shape
(10, 7)
4-数据确定
由于数据格式不定,即,有的是字典。如果是字符串中的字典,用json读取,如果有“,”,去分割后的类型。
import csv
DtypeWarning: Columns (0) have mixed types. Specify dtype option on import or set low_memory=False.
有的说需要在re