糖尿病遗传风险检测挑战赛-权重融合

清浅岁月

已于 2022-08-03 22:56:34 修改

阅读量355

点赞数

分类专栏：数据分析文章标签：机器学习人工智能

于 2022-08-03 22:40:29 首次发布

本文链接：https://blog.csdn.net/u014674558/article/details/126150005

版权

数据分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

权重融合

糖尿病遗传风险检测挑战赛
模型融合的内容还挺多的，我只是尝试stacking这种，权重融合也是后期上分的一种手段。
在这里插入图片描述

基于上一篇，调参之后的进行权重融合。

我用的是lightgbm，xgboost，CatBoostRegressor，这三个模型融合的，融合方式用的是LogisticRegression，但是结果比之前差

from mlxtend.classifier import StackingCVClassifier

import lightgbm as lgb
import xgboost as xgb
from catboost import CatBoostRegressor as cat
from sklearn.linear_model import LogisticRegression
from sklearn import preprocessing
from xgboost.sklearn import XGBClassifier as xgb

lbl = preprocessing.LabelEncoder()


train['BMI'] = lbl.fit_transform(train['BMI'].astype(str))#将提示的包含错误数据类型这一列进行转换
train['DBP'] = lbl.fit_transform(train['DBP'].astype(str))#将提示的包含错误数据类型这一列进行转换
train['KFT'] = lbl.fit_transform(train['KFT'].astype(str))#将提示的包含错误数据类型这一列进行转换
train['KYD'] = lbl.fit_transform(train['KYD'].astype(str))#将提示的包含错误数据类型这一列进行转换
train['HST'] = lbl.fit_transform(train['HST'].astype(str))#将提示的包含错误数据类型这一列进行转换

test['BMI'] = lbl.fit_transform(test['BMI'].astype(str))#将提示的包含错误数据类型这一列进行转换
test['DBP'] = lbl.fit_transform(test['DBP'].astype(str))#将提示的包含错误数据类型这一列进行转换
test['KFT'] = lbl.fit_transform(test['KFT'].astype(str))#将提示的包含错误数据类型这一列进行转换
test['KYD'] = lbl.fit_transform(test['KYD'].astype(str))#将提示的包含错误数据类型这一列进行转换
test['HST'] = lbl.fit_transform(test['HST'].astype(str))#将提示的包含错误数据类型这一列进行转换


clf1 = lightgbm.LGBMClassifier(boosting_type='gbdt',  
                objective= 'binary',
                learning_rate= 0.02,
                seed=2020,
                nthread=-1,
                cat_smooth=0,                
                metric= 'auc',
                verbose=-1,
                max_depth=10,
                num_leaves =20, 
                min_data_in_leaf=3,
                min_sum_hessian_in_leaf =3, 
                feature_fraction=0.8,
                bagging_fraction=1,
                bagging_freq = 2,  
                lambda_l1 =0.3,
                lambda_l2=0.4,        
                        )
params = {'learning_rate': 0.2, 'depth': 5, 'l2_leaf_reg': 10, 'bootstrap_type': 'Bernoulli',
                      'od_type': 'Iter', 'od_wait': 50, 'random_seed': 11, 'allow_writing_files': False}

clf2 = cat(iterations=2000, **params)

clf3 = xgb(n_estimators=400, learning_rate=0.05, gamma=0, subsample=0.8, colsample_bytree=0.9, max_depth=7)

lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2,clf3], meta_classifier=lr, cv=5)

sclf.fit(train, train_label)
test_data = sclf.predict(test)

pre_y=pd.DataFrame(test_data)
pre_y

预测结果是一个数组

在这里插入图片描述
把预测结果写入到文件中提交

result=pd.read_csv('./data/test_111.csv')
result['label']=pre_y
result.to_csv('result20.csv',index=False)
result.head()

在这里插入图片描述

权重融合，我只是接触力一点，正在深入了解。

可以看一下这个大佬的博客：

https://zhongqiang.blog.csdn.net/article/details/105012739
权重融合总结：
https://blog.csdn.net/xiayto/article/details/121231051?spm=1001.2014.3001.5502

清浅岁月

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录