1、date_sub,date_add的参数都是一个日期加一个时间INTERVAL,两个日期相差天数,to_days(日期或类日期字串)-to_days(日期或类日期字串),excel透视表分段,有一个group选项,可以选择起始点和终点以及步长
2、另外把gbdt用在了之前整理的数据集上,在开发集上效果逆天,在尝试过程中,涉及到了诸多pandas和numpy的操作
#导入csv
df = pd.read_csv("C:/woe_ds.csv")
#分自变量x
x = df.iloc[:,:-1]
#分因变量y
y = df.iloc[:,-1]
#最后一个参数stratify,可以选择根据哪个字段分层抽样,90%训练,10%测试
x_train,x_test,y_train,y_test = cross_validation.train_test_split(x,y,test_size=0.1,stratify=y)
#用默认参数生成一个gbdt分类器
gbdt = GradientBoostingClassifier()
gbdt.fit(x,y)
pred = gbdt.predict(x)
#这个会输出预测属于某一类的比例
pred_prob = gbdt.predict_proba(x)
#转成df方便使用concat进行拼接
df_pred_prob = pd.DataFrame(pred_prob)
df_y = pd.DataFrame(y)
print df_pred_prob
print df_y
#把预测值和y拼接在一起
result = pd.concat([df_pred_prob,df_y],axis=1)
#写成csv
result.to_csv("result.csv")