关闭

2016.12.30回顾

59人阅读 评论(0) 收藏 举报
分类:

1、date_sub,date_add的参数都是一个日期加一个时间INTERVAL,两个日期相差天数,to_days(日期或类日期字串)-to_days(日期或类日期字串),excel透视表分段,有一个group选项,可以选择起始点和终点以及步长

2、另外把gbdt用在了之前整理的数据集上,在开发集上效果逆天,在尝试过程中,涉及到了诸多pandas和numpy的操作

#导入csv
df = pd.read_csv("C:/woe_ds.csv")
#分自变量x
x = df.iloc[:,:-1]
#分因变量y
y = df.iloc[:,-1]
#最后一个参数stratify,可以选择根据哪个字段分层抽样,90%训练,10%测试
x_train,x_test,y_train,y_test = cross_validation.train_test_split(x,y,test_size=0.1,stratify=y)
#用默认参数生成一个gbdt分类器
gbdt = GradientBoostingClassifier()
gbdt.fit(x,y)
pred = gbdt.predict(x)
#这个会输出预测属于某一类的比例
pred_prob = gbdt.predict_proba(x)
#转成df方便使用concat进行拼接
df_pred_prob = pd.DataFrame(pred_prob)
df_y = pd.DataFrame(y)
print df_pred_prob
print df_y
#把预测值和y拼接在一起
result = pd.concat([df_pred_prob,df_y],axis=1)
#写成csv
result.to_csv("result.csv")


0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:66166次
    • 积分:3855
    • 等级:
    • 排名:第8530名
    • 原创:337篇
    • 转载:0篇
    • 译文:0篇
    • 评论:7条
    文章分类
    最新评论