笔记
青枫冥月
这个作者很懒,什么都没留下…
展开
-
过拟合与交叉验证验证集
过拟合所谓过拟合,指的是模型在训练集上表现的很好,但是在交叉验证和集合测试集上表现一般,也就是说模型对未知样本的预测表现一般,泛化(generalization)能力较差。从图中可以看出,图一是欠拟合,模型不能很好地拟合数据;图二是最佳的情况;图三就是过拟合,采用了很复杂的模型。最后导致曲线波动很大,最后最可能出现的结果就是模型对于未知样本的预测效果很差。在机器学习算法中,我们常常将原始数...原创 2020-04-12 16:06:17 · 1073 阅读 · 0 评论 -
模型保存与读取、包外样本
模型保存bst.save_model(‘demo.model’)包外样本oob参考1 : 包外样本可用于模型选择,例如确定最佳迭代次数参考2 : obbs估计等价于k折交叉验证,使用obbs作为测试集能大幅减少计算。参考3 : 包外估计的用途...原创 2020-04-12 00:05:21 · 270 阅读 · 0 评论 -
XGBoost
XGBoost有两种方法建模训练1、使用xgboost原生库进行训练import xgboost as xgbfrom sklearn.metrics import accuracy_scoredtrain = xgb.DMatrix(f_train, label = l_train)dtest = xgb.DMatrix(f_test, label = l_test)param =...原创 2020-04-11 17:35:49 · 204 阅读 · 0 评论 -
4.11交叉验证——K-fold和Stratified k-fold
参考来源:python中sklearn实现交叉验证在实验数据分析中,有些算法需要用现有的数据构建模型,如卷积神经网络(CNN),这类算法称为监督学习。构建模型需要的数据称为训练数据。模型的构建的过程中,也需要检验模型,辅助模型构建。所以会将训练数据分为两个部分,1)训练数据;2)验证数据。将数据分类就要采用交叉验证的方法。Stratified k-foldStratifiedKFo...原创 2020-04-11 16:59:37 · 577 阅读 · 0 评论 -
4.9
1、sklearn中predict_proba用法(注意和predict的区别)predict_proba返回的是预测为各个类别的概率predict返回的是预测标签p=t1.predict_proba(X_test)p=t1.predict_proba(X_test)[:,1]#预测为1的概率=预测概率p=t1.predict(X_test)#预测标签...原创 2020-04-09 22:38:18 · 77 阅读 · 0 评论 -
4.6
1、print整数(%d)、浮点数(%f)print('TP = %d' %TP)print('AUC = %.4f' %AUC)Stacking原理+代码网格搜索、自定义损失函数CNN在金融领域的应用:【传统特征衍生】从人人贷平台来看CNN 在金融科技领域的运用机器学习之金融风控实战(全网最全)...原创 2020-04-06 23:24:27 · 84 阅读 · 0 评论 -
4.5
1、创建空列表#创建一个长度为3000,初始值都为0的列表:PD_pre=[0 for x in range(0,3000)]2、数据框添加两列、并加变量名#方法1:validationset['PD_pre']=PD_prevalidationset['PD_prediction']=PD_prediction#方法2#第一步定义字典c={"PD_pre" : PD_pre...原创 2020-04-05 23:43:20 · 141 阅读 · 0 评论 -
4.4
1、新增一列trainset1['fold'] = 1 2、导入导出CSVtrainset1=pd.read_csv("E:/anaconda3/DATA/trainset1.csv")trainset.to_csv('C:/Users/Lenovo/Desktop/trainset.csv',index=False)3、数据框合并(默认axis=0)validationset=...原创 2020-04-05 00:33:33 · 164 阅读 · 1 评论