如何看待2020年“华为杯”研究生数学建模竞赛B题《降低汽油精制过程中的辛烷值损失模型》

数模充电站

已于 2024-09-18 23:35:29 修改

阅读量822

点赞数 7

分类专栏：华为杯数学建模文章标签：数学建模

于 2024-09-18 23:25:43 首次发布

本文链接：https://blog.csdn.net/Math_EVSE/article/details/142346382

版权

数学建模同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

华为杯

8 篇文章 0 订阅

订阅专栏

题目

降低汽油精制过程中的辛烷值损失模型

一、背景

汽油是小型车辆的主要燃料，汽油燃烧产生的尾气排放对大气环境有重要影响。为此，世界各国都制定了日益严格的汽油质量标准（见下表）。汽油清洁化重点是降低汽油中的硫、烯烃含量，同时尽量保持其辛烷值。

我国原油对外依存度超过70%，且大部分是中东地区的含硫和高硫原油。原油中的重油通常占比40-60%，这部分重油（以硫为代表的杂质含量也高）难以直接利用。为了有效利用重油资源，我国大力发展了以催化裂化为核心的重油轻质化工艺技术，将重油转化为汽油、柴油和低碳烯烃，超过70%的汽油是由催化裂化生产得到，因此成品汽油中95%以上的硫和烯烃来自催化裂化汽油。故必须对催化裂化汽油进行精制处理，以满足对汽油质量要求。

辛烷值（以RON表示）是反映汽油燃烧性能的最重要指标，并作为汽油的商品牌号（例如89#、92#、95#）。现有技术在对催化裂化汽油进行脱硫和降烯烃过程中，普遍降低了汽油辛烷值。辛烷值每降低1个单位，相当于损失约150元/吨。以一个100万吨/年催化裂化汽油精制装置为例，若能降低RON损失0.3个单位，其经济效益将达到四千五百万元。

化工过程的建模一般是通过数据关联或机理建模的方法来实现的，取得了一定的成果。但是由于炼油工艺过程的复杂性以及设备的多样性，它们的操作变量（控制变量）之间具有高度非线性和相互强耦联的关系，而且传统的数据关联模型中变量相对较少、机理建模对原料的分析要求较高，对过程优化的响应不及时，所以效果并不理想。

某石化企业的催化裂化汽油精制脱硫装置运行4年，积累了大量历史数据，其汽油产品辛烷值损失平均为1.37个单位，而同类装置的最小损失值只有0.6个单位。故有较大的优化空间。请参赛研究生探索利用数据挖掘技术来解决化工过程建模问题。

二、目标

依据从催化裂化汽油精制装置采集的325个数据样本（每个数据样本都有354个操作变量），通过数据挖掘技术来建立汽油辛烷值（RON）损失的预测模型，并给出每个样本的优化操作条件，在保证汽油产品脱硫效果（欧六和国六标准均为不大于10μg/g，但为了给企业装置操作留有空间，本次建模要求产品硫含量不大于5μg/g）的前提下，尽量降低汽油辛烷值损失在30%以上。

三、问题

1. 数据处理：请参考近4年的工业数据(见附件一“325个数据样本数据.xlsx”)的预处理结果，依“样本确定方法”（附件二）对285号和313号数据样本进行预处理（原始数据见附件三“285号和313号样本原始数据.xlsx”）并将处理后的数据分别加入到附件一中相应的样本号中，供下面研究使用。

2. 寻找建模主要变量：

由于催化裂化汽油精制过程是连续的，虽然操作变量每3 分钟就采样一次，但辛烷值（因变量）的测量比较麻烦，一周仅2次无法对应。但根据实际情况可以认为辛烷值的测量值是测量时刻前两小时内操作变量的综合效果，因此预处理中取操作变量两小时内的平均值与辛烷值的测量值对应。这样产生了325个样本（见附件一）。

建立降低辛烷值损失模型涉及包括7个原料性质、2个待生吸附剂性质、2个再生吸附剂性质、2个产品性质等变量以及另外354个操作变量（共计367个变量），工程技术应用中经常使用先降维后建模的方法，这有利于忽略次要因素，发现并分析影响模型的主要变量与因素。因此，请你们根据提供的325个样本数据（见附件一），通过降维的方法从367个操作变量中筛选出建模主要变量，使之尽可能具有代表性、独立性（为了工程应用方便，建议降维后的主要变量在30个以下），并请详细说明建模主要变量的筛选过程及其合理性。（提示：请考虑将原料的辛烷值作为建模变量之一）。

3. 建立辛烷值（RON）损失预测模型：采用上述样本和建模主要变量，通过数据挖掘技术建立辛烷值（RON）损失预测模型，并进行模型验证。

股价预测类似

4. 主要变量操作方案的优化：要求在保证产品硫含量不大于5μg/g的前提下，利用你们的模型获得325个数据样本(见附件四“325个数据样本数据.xlsx”)中，辛烷值（RON）损失降幅大于30%的样本对应的主要变量优化后的操作条件（优化过程中原料、待生吸附剂、再生吸附剂的性质保持不变，以它们在样本中的数据为准）。

5. 模型的可视化展示：工业装置为了平稳生产，优化后的主要操作变量（即：问题2中的主要变量）往往只能逐步调整到位，请你们对133号样本（原料性质、待生吸附剂和再生吸附剂的性质数据保持不变，以样本中的数据为准），以图形展示其主要操作变量优化调整过程中对应的汽油辛烷值和硫含量的变化轨迹。（各主要操作变量每次允许调整幅度值Δ见附件四“354个操作变量信息.xlsx”）。

摘要：

本文利用现代统计学工具spss软件和Excel对数据进行了预处理，利用spss因子分析和建立多元线性回归模型、利用遗传算法对辛烷值缺失值进行了分析，得到了降低辛烷损失的优化方法。

问题一利用附件二的方法进行了数据预处理，对附件三的215号和313号样本数据进行了数据分析，对异常值和缺失值进行处理，将附件三处理的结果替换附件一中285号和313号数据。

问题二利用因子分析对问题一的到的数据进行因子分析，利用现代统计学工具spss来运用因子分析来进行降维处理，对影响辛烷值（RNO）损失值的各个变量进行检验，考察其变量之间是否存在一定线性关系，判断是否符合因子分析的方法的要求来提取因子。根据相关系数矩阵可得，较多因子相关系数较大，有高度的相关性，存在高度的线性关系。所以辛烷值（RNO）损失值的各个因子适合进行因子分析。由于分析结果中的负号代表方向，正负相关，为了体现对产品性质RON损失影响的大小，将结果取绝对值，并且对所有因子的得分进行排序，得到前30个主要变量。

问题三利用问题二得到的30个因子，建立多元线性回归优化预测模型，首先利用spss对30个因子进行相关性分析，得出主要变量相关性较高，利用主要变量进行多元线性回归模型的建立，多辛烷值的缺失进行了预测。对多元线性回归模型进行了残差检验、拟合优度检验、F检验、t检验的模型检验，此模型拟合度较高，达到0.87，误差范围较小，小于0.004，对于模型中因子假设的可靠性较强，符合题目的要求。

问题四加入了附件四的区间条件，将问题离散化和因素区间化，本文利用并行遗传算法建立基于并行遗传算法的区间参数非线性优化模型，通过非线性复杂区间优化模型与遗传算法的结合，将影响辛烷值的主要影响因子迭代优化，代入问题三的预测模型，得出的预测值与实际值进项双线平行可视化对比分析，发现两边辛烷值的损失数值有所减低，即辛烷值损失降幅达到30%，证明优化成功。

问题五利用可视化分析，对133号样本进行分析，采用控制变量法，根据问题四的133号样本的30个变量的优化结果和原始数据进行比较，基于不同变量的每一步调整幅度进行调参优化，最终以图形展示其主要操作变量优化调整过程中对应的汽油辛烷值和硫含量的变化轨迹。

关键词：遗传算法，因子分析，残差检验，多元线性回归优化模型，基于并行遗传算法的区间参数非线性优化模型