- 博客(8)
- 收藏
- 关注
原创 过拟合与交叉验证验证集
过拟合所谓过拟合,指的是模型在训练集上表现的很好,但是在交叉验证和集合测试集上表现一般,也就是说模型对未知样本的预测表现一般,泛化(generalization)能力较差。从图中可以看出,图一是欠拟合,模型不能很好地拟合数据;图二是最佳的情况;图三就是过拟合,采用了很复杂的模型。最后导致曲线波动很大,最后最可能出现的结果就是模型对于未知样本的预测效果很差。在机器学习算法中,我们常常将原始数...
2020-04-12 16:06:17 1131
原创 模型保存与读取、包外样本
模型保存bst.save_model(‘demo.model’)包外样本oob参考1 : 包外样本可用于模型选择,例如确定最佳迭代次数参考2 : obbs估计等价于k折交叉验证,使用obbs作为测试集能大幅减少计算。参考3 : 包外估计的用途...
2020-04-12 00:05:21 322
原创 XGBoost
XGBoost有两种方法建模训练1、使用xgboost原生库进行训练import xgboost as xgbfrom sklearn.metrics import accuracy_scoredtrain = xgb.DMatrix(f_train, label = l_train)dtest = xgb.DMatrix(f_test, label = l_test)param =...
2020-04-11 17:35:49 245
原创 4.11交叉验证——K-fold和Stratified k-fold
参考来源:python中sklearn实现交叉验证在实验数据分析中,有些算法需要用现有的数据构建模型,如卷积神经网络(CNN),这类算法称为监督学习。构建模型需要的数据称为训练数据。模型的构建的过程中,也需要检验模型,辅助模型构建。所以会将训练数据分为两个部分,1)训练数据;2)验证数据。将数据分类就要采用交叉验证的方法。Stratified k-foldStratifiedKFo...
2020-04-11 16:59:37 612
原创 4.9
1、sklearn中predict_proba用法(注意和predict的区别)predict_proba返回的是预测为各个类别的概率predict返回的是预测标签p=t1.predict_proba(X_test)p=t1.predict_proba(X_test)[:,1]#预测为1的概率=预测概率p=t1.predict(X_test)#预测标签...
2020-04-09 22:38:18 91
原创 4.6
1、print整数(%d)、浮点数(%f)print('TP = %d' %TP)print('AUC = %.4f' %AUC)Stacking原理+代码网格搜索、自定义损失函数CNN在金融领域的应用:【传统特征衍生】从人人贷平台来看CNN 在金融科技领域的运用机器学习之金融风控实战(全网最全)...
2020-04-06 23:24:27 99
原创 4.5
1、创建空列表#创建一个长度为3000,初始值都为0的列表:PD_pre=[0 for x in range(0,3000)]2、数据框添加两列、并加变量名#方法1:validationset['PD_pre']=PD_prevalidationset['PD_prediction']=PD_prediction#方法2#第一步定义字典c={"PD_pre" : PD_pre...
2020-04-05 23:43:20 176
原创 4.4
1、新增一列trainset1['fold'] = 1 2、导入导出CSVtrainset1=pd.read_csv("E:/anaconda3/DATA/trainset1.csv")trainset.to_csv('C:/Users/Lenovo/Desktop/trainset.csv',index=False)3、数据框合并(默认axis=0)validationset=...
2020-04-05 00:33:33 226 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人