2021年研究生数模B题论文记录

本文概述了一篇关于2021年研究生数学建模竞赛B题的论文,介绍了关键数据处理方法(如拉格朗日插值和异常值处理)、相关性系数的选择、GMM和K-means聚类、t-SNE降维以及XGBoost预测模型的应用。通过这些技术,作者展示了在竞赛中如何有效地处理和分析复杂数据。
摘要由CSDN通过智能技术生成

文章来源 2021年全国大学生研究生数学建模竞赛优秀论文集合,B题,文章编号:B21100130067

1.常见数据处理方法:

  1. 针对缺失值,文章使用的是拉格朗日插值法,相较于平均值插值法,更加适用于有时间序列性质的数据,同时插值后的数据属于预测的一部分,文章中的观点是保留小数
  2. 针对异常值,一种是不符合实际意义的数据,需要通过文献查找进行删除,一方面可以通过箱线图进行判断,也可以使用3σ准则进行判断,3σ准则解释:
    在这里插入图片描述

2.相关性系数选择

常见的有三种,皮尔森相关系数,肯德尔相关系数,斯皮尔曼相关系数知乎解释

3.聚类算法

文章中主要提到了两类,基于EM的GMM聚类,K-means聚类
K-means聚类算法
GMM聚类算法

在这里插入图片描述

4.一种数据降维方式

论文中提到的将22维的数据进行降维处理,判断降维后的数据是否容易进行聚类,进而推论出高维是否容易聚类,提到的算法是t-SNE t-SNE算法
在这里插入图片描述

5.预测模型

文中使用的是XGBoost算法,论文中的第三问和第四问都是用的这个算法,使用时候,作者将数据进行纵向合并,数据集划分等操作,同时由于输入的维度过高,达到22维,而输出维度很低,还通过了输入特征与输出值的相关性,将维度进行降低,提出相关性不高的特征,最后图像看起来很好。XGBoost算法讲解

在这里插入图片描述

该系列文章主要是为了整理数模中常用的方法,仅仅作为记录,其中提供的很多链接也是为了方便以后自己回过头来的学习。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Philo`

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值