上网查资料后发现做数据挖掘目前比较常用的就是R和Python,之前用过R所以现在想尝试使用Python。
Dataframe是非常好用的数据结构,可以把数据按表格的方式存取,但是在使用的过程中真的遇到很多麻烦。下面是一些使用心得
1. Dataframe的赋值
test_data.ix[~pd.isnull(test_data['col']),'label'] = 1
test_data['label'][~pd.isnull(test_data['col'])] = 1
两种都可以赋值,但是下面那种应该是不对的,会有Warning。
在对行进行赋值时,一定要保证index是一样的。
假设有A、B两个Dataframe并且A、B有相同的结构,要把B的一部分赋值给A,那要两个部分有着相同的index才可以正确赋值,否则会有NaN。
1 2 3 4 5 6 7 8 9 | * | 10 20 30 40 50 60 70 80 90 | = | 10 40 90 160 250 360 490 640 810 |
总的来说,在Dataframe里面,indexer非常重要,是各种赋值、计算能不能正确进行的关键。