B题人工只能范式的物理化学家
摘 要:
2024长三角数学建模B题成品论文25页+完整可执行代码+运行结果可视化图表https://mbd.pub/o/bread/ZpaTk5du
完整数据代码+参考成品
随着科学技术的飞速发展,化学和物理领域的研究逐渐进入了一个复杂化和 高维化的新时代。传统的研究方法,如“ 穷举” 、“试错”和“重复” ,在面对庞大的 化学空间时显得捉襟见肘,往往只能达到局部最优而非全局最优。为了突破这一 瓶颈,中国科技大学机器化学家平台应运而生,它凭借大数据与智能模型的双重 驱动,实现了化学合成、表征和测试的全流程自动化开发,为化学研究带来了革 命性的变革。
针对问题 1 ,首先需要对数据进行预处理,检测是否有缺失值、异常并进行 修正,同时对需要的数据进行数据标准化与归一化操作。要想探究y2 与分子 id 之间是否存在有一定的函数关系,那么在处理好数据之后,要进行y2 与分子 id 的特征分析,将两个变量进行可视化,大致分析y2 与分子 id 之间的函数关系, 最后采用适当的函数,即多项式回归拟合建立函数,并对y2 进行合理预测。针对 问题 2,
针对问题 2 ,与问题 1 类似,采用同样的方法检查缺失值并剔除异常值。要 想选择不超过 10 个的特征指标,那么就要分析y2 ~y3 , x1 ~x100与y1 的相关性, 寻找用于计算特征与目标变量之间相关性的函数,选取相关性最大的 10 个变量 作为特征指标 ,然后建立y1 预测模型进行预测 。根据要求 , 问题 2 采用了 SelectKBest 方法结合 f_regression 函数从训练数据集中选择对目标变量 y1 影 响最大的 10 个特征,然后使用随机森林对数据进行训练并最终预测。
针对问题 3,在检查缺失值并剔除异常值之后,要想分析y3 与y1 ~y2 , x1 ~x100 之间的函数关系,仍旧采用 SelectKBest方法选取相关性最大的 10 个特征指标, 来获取对y3 预测结果最大的特征指标。采用基于梯度的回归模型对 10 个特征指 标进行训练并预测y3,最后基于模型的均方误差(MSE)来分析这些指标的灵敏 度。
针对问题 4,需要分析 class 与y1 ~y3 , x1 ~x100指标之间的关系,并于物理化 学性质,建立分子的类别预测模型,分析y1 ~y3 , x1 ~x100 中对分类结果影响较大 的指标。首先找出y1 ~y3 , x1 ~x100 中对 class 变量影响最大的 10 个指标,然后采 用 RandomForestClassifier 分类模型对 class 进行分类,最后来评估分类准确率。
针对问题 5 ,需要选择更好的方法来提高模型的检测精度。对于y1 , y3 变量 的预测,尝试用更多的特征值(本题增加至 20 个特征指标)来提升检测精度, 对于类别 class 的预测,通过建立深度学习的神经网络(LSTM)模型并结合随 即森级分类进行预测以提升预测精度。