青枫冥月-CSDN博客

原创过拟合与交叉验证验证集

过拟合所谓过拟合，指的是模型在训练集上表现的很好，但是在交叉验证和集合测试集上表现一般，也就是说模型对未知样本的预测表现一般，泛化（generalization）能力较差。从图中可以看出，图一是欠拟合，模型不能很好地拟合数据；图二是最佳的情况；图三就是过拟合，采用了很复杂的模型。最后导致曲线波动很大，最后最可能出现的结果就是模型对于未知样本的预测效果很差。在机器学习算法中，我们常常将原始数...

2020-04-12 16:06:17 1131

原创模型保存与读取、包外样本

模型保存bst.save_model(‘demo.model’)包外样本oob参考1 ：包外样本可用于模型选择，例如确定最佳迭代次数参考2 ： obbs估计等价于k折交叉验证，使用obbs作为测试集能大幅减少计算。参考3 ：包外估计的用途...

2020-04-12 00:05:21 322

原创 XGBoost

XGBoost有两种方法建模训练1、使用xgboost原生库进行训练import xgboost as xgbfrom sklearn.metrics import accuracy_scoredtrain = xgb.DMatrix(f_train, label = l_train)dtest = xgb.DMatrix(f_test, label = l_test)param =...

2020-04-11 17:35:49 245

原创 4.11交叉验证——K-fold和Stratified k-fold

参考来源：python中sklearn实现交叉验证在实验数据分析中，有些算法需要用现有的数据构建模型，如卷积神经网络（CNN），这类算法称为监督学习。构建模型需要的数据称为训练数据。模型的构建的过程中，也需要检验模型，辅助模型构建。所以会将训练数据分为两个部分，1）训练数据；2）验证数据。将数据分类就要采用交叉验证的方法。Stratified k-foldStratifiedKFo...

2020-04-11 16:59:37 612

原创 4.9

1、sklearn中predict_proba用法（注意和predict的区别）predict_proba返回的是预测为各个类别的概率predict返回的是预测标签p=t1.predict_proba(X_test)p=t1.predict_proba(X_test)[:,1]#预测为1的概率=预测概率p=t1.predict(X_test)#预测标签...

2020-04-09 22:38:18 91

原创 4.6

1、print整数（%d）、浮点数（%f）print('TP = %d' %TP)print('AUC = %.4f' %AUC)Stacking原理+代码网格搜索、自定义损失函数CNN在金融领域的应用：【传统特征衍生】从人人贷平台来看CNN 在金融科技领域的运用机器学习之金融风控实战（全网最全）...

2020-04-06 23:24:27 99

原创 4.5

1、创建空列表#创建一个长度为3000，初始值都为0的列表：PD_pre=[0 for x in range(0,3000)]2、数据框添加两列、并加变量名#方法1：validationset['PD_pre']=PD_prevalidationset['PD_prediction']=PD_prediction#方法2#第一步定义字典c={"PD_pre" : PD_pre...

2020-04-05 23:43:20 176

原创 4.4

1、新增一列trainset1['fold'] = 1 2、导入导出CSVtrainset1=pd.read_csv("E:/anaconda3/DATA/trainset1.csv")trainset.to_csv('C:/Users/Lenovo/Desktop/trainset.csv',index=False)3、数据框合并（默认axis=0）validationset=...

2020-04-05 00:33:33 226 1

你的过儿