多模型融合

机器学习模型和深度学习模型的泛化能力是评估模型好坏的一个非常重要的指标,但在使用单一模型处理某个问题时很容易遇到模型泛化瓶颈。此外,建立一个模型后,这个模型可能在解决某个问题的能力上比较出色,在解决其他问题时,结果却不尽如人意。因此通过一些科学的方法对优秀的模型进行融合,来突破单个模型对未知问题的泛化能力的瓶颈,并综合各个模型的优点得到同一个模型的最优解决方法,这就是多模型融合。

1 多模型融合入门

在多模型融合过程中一般会遇到两个问题,第一个问题是训练复杂的神经网络非常耗时,因为优秀的模型一般都是深度神经网络模型,其层次较深,参数较多。对多个深度神经网络的模型融合进行参数训练时,会比单一的深度神经网络模型更加耗时。
一般通过选择结构较简单、网络层数较少的神经网络模型参与到多模型融合中;当使用了深度神经网络模型进行多模型融合时,一般通过迁移学习方法来辅助模型的训练,减少训练耗时。
第二个问题时进行多模型融合时,融合方法的类型选择让人头疼。选择不同的模型融合方法解决某些问题时,其结果的表现不同,此外是针对模型的过程进行融合还是针对各个模型输出的结果进行融合,也值得考虑。
此处以结果融合方法为例进行简单介绍,结果融合方法主要有结果多数表决、结果直接平均和结果加权平均三种主要的类型。
在结果融合法有一个比较通用的理论,融合的各个模型相关度越低,模型融合的效果会更好,也就是说各个模型输出结果的差异性越高(比如神经网络和树模型),多模型融合效果就越好。

1.1 结果多数表决

结果多数表决类似于投票表决,一般选取的模型融合个数为奇数,否则有可能出现无法判断的情况。

1.2 结果直接平均

结果直接平均追求的是融合各个模型的平均水平,不强调个别模型的突出优势,可弥补个别模型的明显劣势。

1.3 结果加权平均

可将结果加权平均看做直接平均的改进版本,在结果加权平均方法中会新增一个权重参数,这个权重参数用于控制各个模型对融合结果的影响程度。不同的权重组合对最终的融合模型的结果影响较大,一般需尝试不同的权重值进行组合,以达到最优的多模型融合解决方案。

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
<项目介绍> 基于机器学习和多模型融合的二手车交易市场大数据挖掘项目源码+项目说明+模型.zip 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到94.5分,放心下载使用! 该资源适合计算机相关专业(如人工智能、通信工程、自动化、软件工程等)的在校学生、老师或者企业员工下载,适合小白学习或者实际项目借鉴参考! 当然也可作为毕业设计、课程设计、课程作业、项目初期立项演示等。如果基础还行,可以在此代码基础之上做改动以实现更多功能。 本项目通过赛事组委会提供的二手车交易样本数据,通过数据分析、信息挖掘等方式,采用机器学习与数学模型来分析二手车估价、交易周期的相关因素。具体问题如下: - 问题1:基于给定的二手车交易样本数据(附件 1:估价训练数据),选用合适的估价方法,构建模型,预测二手车的零售交易价格。 - 问题2:结合附件 4“门店交易训练数据”对车辆的成交周期(从车辆上架到成交的时间长度,单位:天)进行分析,挖掘影响车辆成交周期的关键因素。假如需要加快门店在库车辆的销售速度,你们可 以结合这些关键因素采取哪些行之有效的手段,并进一步说明这些手段的适用条件和预期效果。 - 问题3:依据给出的样本数据集,提出还有哪些问题值得研究,并给出具体的研究思路? 针对问题一,主要实现对二手车交易价格的估计和预测。 - ①在数据层面最重要的是进行数据预处理,主要包括特征的筛选与转化、相关性分析、缺失值填补、数据清洗与统计,首先将部分日期型数据转化为数值型数据,接着通过随机森林算法成功对关键特征的缺失值完成填补,最终得到16个分类变量和13项数值变量,共计30000条可用的样本集数据。 - ②通过对9种机器学习算法的十次迭代,依据6个模型评价标准,筛选出XGBoost算法(XGBR)、随机森林算法(RFR)、装袋算法(BgR)等三类模型,对其进行集成操作后,得到“XGBR+RFR+BgR”集成模型,进而对二手车交易价格进行预测,该模型在给定的评价标准上达到0.630876。 针对问题二,主要实现对二手车交易成功率与成交周期的影响因素分析。 - ①补充了9个特征变量和2个目标变量; - ②采用相关性的热力分布图,初步探索在门店交易特征变量、总体特征变量中影响二手车成交率和成交周期的主要因素;③通过8种机器学习的分类算法,进行十次迭代运算,参考4个模型的评价标准,选取梯度提升算法对二手车成交率的影响因素进行分析,结果发现车型id是影响成交率的最重要因素;④通过9种机器学习的回归算法,经过十次迭代运算,参考平均绝对误差(MAE)和判定系数(R2)等2个评价标准,选取梯度提升算法分析二手车成交周期的影响因素,结果发现调价周期是影响成交周期的首要因素,进而对其现实意义进行了探讨。 ## 1.项目框架 ![项目框架](images1.png) ## 2.程序说明 ### 2.1 convert_to_num.py 分类变量编码代码(pycharm编写, 由.py格式导出),用于对数据中的分类变量进行编码(分类变量->数值)和逆编码(数值->分类变量)。 ### 2.2 问题1源程序1_问题1数据缺失值预测.py 问题1数据缺失值预测填充代码(pycharm编写,由.py格式导出)。 首先针对于数据缺失问题,对问题1数据集缺失的部分数据用预测的方式进行填充。 ### 2.3 问题1源程序2_问题1交易价格预测.ipynb 问题2成交周期数据挖掘代码(jupyter notebook编写, 由. ipynb格式导出)。 问题1缺失值处理完成后,选取特征值对交易价格进行预测。 ### 2.4 问题2源程序_问题2成交周期数据挖掘代码.ipynb 问题2成交周期数据挖掘代码(jupyter notebook编写, 由. ipynb格式导出)。 使用提供的数据集,对影响二手车能否成交和二手车成交周期的关键因素进行挖掘。 ### 2.5 data文件夹 用于程序运行时候存放关键数据文件 ### 2.6 model文件夹 用于存放模型文件 ## 3.运行方式 .ipynb中有保留运行结果,.py文件使用右键运行即可。 ### 3.1解决问题1运行步骤: 问题1源程序1_问题1数据缺失值预测.py(先填充缺失值) -> 问题1源程序2_问题1交易价格预测.ipynb(价格预测) ### 3.2解决问题2运行步骤: 问题2源程序_问题2成交周期数据挖掘代码.ipynb ## 4. 交易价格预测模型评价 本项目首先分别采用贝叶斯回归(ByR)、XGBoost算法回归(XGBR)、弹性网络回归(EN)、支持向量机回归(SVR)、梯度提升算法回归(GBR)、随机森林算法回归(RFR)、AdaBoost

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值