对智慧海洋的数据进行模型融合

最新推荐文章于 2022-04-02 22:51:50 发布

黎明之道

最新推荐文章于 2022-04-02 22:51:50 发布

阅读量351

点赞数

分类专栏：数据挖掘比赛文章标签： python 机器学习深度学习 tensorflow 人工智能

本文链接：https://blog.csdn.net/sjjsaaaa/article/details/116028225

版权

本文探讨了对智慧海洋数据进行模型融合的方法，包括简单加权融合、boosting/bagging以及stacking融合。通过导入相关库、降低内存使用、数据预处理，构建并训练了多个模型，如RF、LGB。实验结果显示，stacking融合效果不佳，但单模融合表现良好。

摘要由CSDN通过智能技术生成

模型融合

类型：

简单加权融合:
–回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）
– 分类：投票（Voting)
boosting/bagging（在xgboost，Adaboost,GBDT中已经用到）:
– 多树的提升方法
stacking/blending:
– 构建多层模型，并利用预测结果再拟合预测。

下面直接对数据进行模型融合：

1、导入相关库和降低内存函数

import pandas as pd
import numpy as np
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

warnings.filterwarnings('ignore')
%matplotlib inline

import itertools
import matplotlib.gridspec as gridspec
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier,RandomForestRegressor
from sklearn.linear_model import LogisticRegression
# from mlxtend.classifier import StackingClassifier
from sklearn.model_selection import cross_val_score, train_test_split
# from mlxtend.plotting import plot_learning_curves
# from mlxtend.plotting import plot_decision_regions

from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import VotingClassifier
import lightgbm as lgb
from sklearn.neural_network import MLPClassifier,MLPRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error

import pandas as pd
import numpy as np
from sklearn.metrics import classification_report, f1_score
from sklearn.model_selection import StratifiedKFold, KFold,train_test_split

降低内存使用的函数：

def reduce_mem_usage(df):
    start_mem = df.memory_usage().sum() / 1024**2 
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo