今天主要是建模的事情,小结一下
1、我使用了6种不同的y定义,然后写了一个程序去计算平均iv,这个程序中主要是对pandas的回顾
- 多dataframe的组合,
默认axis=0,就按行组合,相同的表头会忽略掉,重新起序号,用ignore_index = Truepd.concat((df1,df2,df3,df4,df5,df6),ignore_index=True)
- df的groupby,这个是第一次使用,
后面可以接聚合函数sum()或者mean()等,我后头除以6是对里面每一个元素除以了6,我突然发现我并没有指定列,另外一列是IV,但是最后的结果是达到了我的预期,这个里是个坑啊,需要有空来填啊df_total.groupby(['column_name']).sum()/6
- 然后就dataframe排序,还是用的一个即将废弃的方法,df.sort(columns='IV', inplace=True, ascending = 0),新的用法是
df_avg.sort_values(by='IV',inplace=True, ascending = 0)
- df.to_csv有个参数可以不存储index,这个参数就叫index=False就可以了,default是True
2、尝试写真正的y定义,