2016.12.30回顾

strwolf

于 2017-01-03 11:16:34 发布

阅读量247

点赞数

分类专栏：日记算法数据库

本文链接：https://blog.csdn.net/strwolf/article/details/53992369

版权

日记同时被 3 个专栏收录

290 篇文章 0 订阅

订阅专栏

数据库

30 篇文章 0 订阅

订阅专栏

算法

20 篇文章 0 订阅

订阅专栏

1、date_sub，date_add的参数都是一个日期加一个时间INTERVAL，两个日期相差天数，to_days(日期或类日期字串)-to_days(日期或类日期字串)，excel透视表分段，有一个group选项，可以选择起始点和终点以及步长

2、另外把gbdt用在了之前整理的数据集上，在开发集上效果逆天，在尝试过程中，涉及到了诸多pandas和numpy的操作

#导入csv
df = pd.read_csv("C:/woe_ds.csv")
#分自变量x
x = df.iloc[:,:-1]
#分因变量y
y = df.iloc[:,-1]
#最后一个参数stratify，可以选择根据哪个字段分层抽样，90%训练，10%测试
x_train,x_test,y_train,y_test = cross_validation.train_test_split(x,y,test_size=0.1,stratify=y)
#用默认参数生成一个gbdt分类器
gbdt = GradientBoostingClassifier()
gbdt.fit(x,y)
pred = gbdt.predict(x)
#这个会输出预测属于某一类的比例
pred_prob = gbdt.predict_proba(x)
#转成df方便使用concat进行拼接
df_pred_prob = pd.DataFrame(pred_prob)
df_y = pd.DataFrame(y)
print df_pred_prob
print df_y
#把预测值和y拼接在一起
result = pd.concat([df_pred_prob,df_y],axis=1)
#写成csv
result.to_csv("result.csv")