数学建模 | 2020B整理中_2020b数学建模-CSDN博客

本文链接：https://blog.csdn.net/sinat_40759442/article/details/120624289

【关联性分析&独立性检验】

1、数据预处理/规范化

数据预处理—数据标准化（三）|

2、灰色关联分析

Python实现灰色关联分析与结果可视化 | Python进行灰色关联度综合评价 | 无量纲化处理

数据无量纲化处理-极值化/标准化(常/均值化/标准差化 √ | 预处理无量纲化 | 灰色关联分析

灰色关联GRA见👇优秀论文算法 |具体步骤 | 伪代码伪代码伪代码 ->也适合公式| gra公式 |

3、pearson相关系数详细介绍

Python计算皮尔逊 pearson相关系数 | 深入理解皮尔逊相关系数&python代码 ★ |

相关性指标 |皮尔逊相关系数和协方差 | 介绍+正确使用步骤 |

第一步：绘制散点图，是否存在异常点。如果有异常点，删除异常点。然后再看观察变量x和变量y之间的关系是否近似为一条直线，如果是，则计算皮尔逊相关系数。相关系数为(0,1]的正数，表明x和y之间呈线性正相关；相关系数为0，表明二者不存在线性相关关系，但不排除存在其他非线性相关关系；相关系数为[-1,0)的负数，表明x和y之间存在线性负相关关系。

如果散点图并不类似于一条直线，而是其他类型图像，如二次函数图像、指数图像，即使计算出皮尔逊相关系数也没有意义。

三步绘制相关性矩阵热图 R语言 | python绘热力图 |

卡方值不为负数 | 独立性检验步骤应用 |

4、聚类

1.7pearson+二簇 ★| 样本之间的相似度也可以用相关系统来表示。相关系数的绝对值越接近1，表示样本越相似；越接近0，表示样本越不相似。简单相关系数又叫Pearson相关系数

聚类分析-各种距离 |聚类算法 - 相似度距离公式、维度灾难 | K-means |

特征选择：8 种常见的特征过滤法

预处理-5-特征选择/降维 | 数据降维与相关性分析 |

摘|一种基于Pearson相关系数的电力用户负荷曲线聚类算法 √ |

【非线性预测 [ 陈 ]】

【IC50 <=> PIC50】

github转换公式 | 转换 |

1、优化的神经网络

遗传算法优化的or粒子群算法优化的神经网络，建立变量与生物活性之间的非线性拟合关系

基于Python遗传算法的人工神经网络优化 | 遗传算法优化神经网络实现数据预测 |

遗传算法优化BP神经网络 |

训练的神经网络的常见问题 | 神经网络训练与注意点_dfql83704的博客-CSDN博客

使用神经网络进行预测（python）| 用python创建自己的第一个神经网络模型

2、随机森林/决策树

决策树与随机森林 | Scikit-learn实现随机森林算法 | python实现决策树、随机森林的简单原理 | 案例 |

3、非线性回归 (XGboost)

【注意点】做第二问的适合适当考虑和第三问的关系

三大相关系数pearson、spearman、kendall | 在计算person相关系数之前，一定要做出散点图来看两组变量之间是否有线性关系 | pearson使用总结 | 5相关性分析 |

简单&偏均要求变量都是从正态分布总体中所取得的 |建议SPSS|先回归、求残差、再相关

距离相关系数Distance Correlation |

中心极限定理

秩次

★PCA主成分分析 |

白化 |

奇异值分解 | SVD(矩阵)

正则化 | 限制模型复杂度防止过拟合| 正则化 |深度学习中的正则化

BP反向传播方法的核心就是对每层的权重参数不断使用梯度下降来进行优化|gradient descent

神经网络处理非线性预测|

优化-梯度下降 |★ 房价&下山 | 原理 | 详解及扩展 |

建模-遗传算法(从零开始 | FCM说明&与K-means -模糊聚类算法 | FCM详解 |模糊|

Sigmoid函数 | 在伯努利分布上好用 | 简述 | python实现 | 优缺点 | 意义

优化之粒子群 | 数学优化VS计算优化 | 随机搜索全局优化 |PSO及与GA对比 |速度&位置

PSO基本思想是通过群体中个体之间的协作和信息共享来寻找最优解 | 函数优化 | NN

粒子群：最优化算法 | 模拟退火算法 | 模拟退火学习笔记 | 模拟退火-遗传算法 ★ |

常见优化算法分类及总结 |

轮盘赌算法 | 轮盘赌选择法 | 单目标遗传算法-精英保留策略 | 应用 |

采用重复交叉操作及最优保留策略的遗传算法 |

插值算法 | 插值与拟合拉格朗日插值&优缺点 |

svm分类(找到一个分割平面上点的线)svr回归(拟合) support vector regression

常用数学符号 | 无量纲 | 问答无量纲

样本量的确定方法 | 样本量确定方法 |

均方误差MSE | MSE/RMSE/MAE | 总结 | 回归评价指标

鲁棒性 | 鲁棒性 | 鲁棒性 | 鲁棒性测试 |

线性规划的最优解只能存在其可行域边界上(尤其是可顶点)；非线性规划最优解可能在可行域内任意一点达到 |

神经网络对非线性问题有较好适应性 |

耦联 |

显著性检验 |

小波变换 | 基本概念及概述 ★| 小波分析

mRMR算法解析 | 最大相关-最小冗余 (mRMR)特征选择 |

常见的优化方法 | 常见优化算法 | 简述最优化算法 |

随机森林、支持向量机SVC、BP神经网络、遗传算法、粒子群优化参数 |

sklearn中文网 ★| plotlib |

【背景】

三苯氧胺TAM-乳腺癌雌激素受体竞争性拮抗剂 | 雌激素受体研究进展 ★| 雌激素受体 |

雌激素和雌激素受体 | 乳腺肿瘤学 ★| 乳腺癌基因组学与蛋白质组学 | 乳腺癌的流行状况及病因学研究☆ |

抗雌激素药的作用是什么？ | 乳腺癌的治疗-激素治疗 |

将机器学习方法、药效团模型和3D- QSAR模型相结合，发现新型DGAT1抑制剂 |

基于机器学习的化合物活性预测模型 |

基于生物活性的建模可改善有前景的药物筛选,加速药物发现 ★|一张图可用？| 翻译 |

常见的药物筛选模型 |

QSAR | QSAR基本研究方法 | 药物分子设计的重要利器-QSAR |分子描述符 ★ |

化合物活性测试筛选-体外测试概论

√ 分子描述符的含义：①NCDK.QSAR.Descriptors.Moleculars Namespace |

②RDKit::Descriptors Namespace Reference

【参考文献】

基于生物活性的建模（BABM）:一个关键的优势是速度快、可转移性/移植性强、

基于生物活性的建模可鉴定靶向SARS-CoV-2的抗病毒药物 | 基于生物活性的药物开发加速 |

6. Hansch, C. Quantitative approach to biochemical structure-activity
relationships. Accounts Chem. Res. 2, 232–239 (1969).
☆ Cherkasov, A. et al. QSAR modeling: where have you been? Where are you
going to? J. Med. Chem. 57, 4977–5010 (2014). 部分 (有参考文献) |

张雅聪, 吕章艳, 宋方方, 等. 全球及我国乳腺癌发病和死亡变化趋势[J]. 肿瘤综合治疗电子杂志, 2021, 7(2): 14-20.

BAO P P , SHU X O, GAO Y T, et al. Association of hormone-related characteristics and breast cancer risk by estrogen receptor/progesterone receptor status in the shanghai breast cancer
study[J]. Am J Epidemiol, 2011, 174(6):661-671.

QSAR |

【分子描述符+ADMET】

药物开发的亲脂性指标 | 24 Arnott, J.A. et al. (2013) Lipophilicity indices for drug development. J. Appl.Biopharm. Pharmacokinet. 1, 31

26|Lipophilicity in drug discovery |

Calculation of Hydrophobic Constant (Log P) from and f Constantst | 27|

灰度关联分析：

Introduction to Grey Systems Theory|灰度分析 A brief introduction to grey systems theory

Atom type electrotopological state || LipoaffinityIndex、SwHBa

原子类型电拓扑状态指数及其在QSAR中的应用研究 |

基于原子类型电拓扑状态指数的QSPR模型预测链烷烃辛烷值 |