【 关联性分析&独立性检验】
1、数据预处理/规范化
2、灰色关联分析
Python实现 灰色关联分析 与结果可视化 | Python进行灰色关联度综合评价 | 无量纲化处理
数据无量纲化处理-极值化/标准化(常/均值化/标准差化 √ | 预处理无量纲化 | 灰色关联分析
灰色关联GRA见👇优秀论文算法 |具体步骤 | 伪代码伪代码伪代码 ->也适合公式| gra公式 |
3、pearson相关系数详细介绍
Python计算皮尔逊 pearson相关系数 | 深入理解皮尔逊相关系数&python代码 ★ |
相关性指标 |皮尔逊相关系数和协方差 | 介绍+正确使用步骤 |
第一步:绘制散点图,是否存在异常点。如果有异常点,删除异常点。然后再看观察变量x和变量y之间的关系是否近似为一条直线,如果是,则计算皮尔逊相关系数。相关系数为(0,1]的正数,表明x和y之间呈线性正相关;相关系数为0,表明二者不存在线性相关关系,但不排除存在其他非线性相关关系;相关系数为[-1,0)的负数,表明x和y之间存在线性负相关关系。
如果散点图并不类似于一条直线,而是其他类型图像,如二次函数图像、指数图像,即使计算出皮尔逊相关系数也没有意义。
python画热力图(相关系数矩阵图)| 相关矩阵 | 相关系数矩阵与热图python √ |
三步绘制相关性矩阵热图 R语言 | python绘热力图 |
相关性+独立性(卡方) 卡方不适合负数| 独立性检验x^2 |相关分析 | pearson相关性-卡方独立性
4、聚类
1.7pearson+二簇 ★| 样本之间的相似度也可以用相关系统来表示。相关系数的绝对值越接近1,表示样本越相似;越接近0,表示样本越不相似。简单相关系数又叫Pearson相关系数
聚类分析-各种距离 |聚类算法 - 相似度距离公式、维度灾难 | K-means |
摘|一种基于Pearson相关系数的电力用户负荷曲线聚类算法 √ |
【非线性 预测 [ 陈 ]】
【IC50 <=> PIC50】
github转换公式 | 转换 |
1、优化的神经网络
遗传算法优化的or粒子群算法优化的神经网络,建立变量与生物活性之间的非线性拟合关系
基于Python遗传算法的人工神经网络优化 | 遗传算法优化神经网络实现数据预测 |
训练的神经网络的常见问题 | 神经网络训练与注意点_dfql83704的博客-CSDN博客
使用神经网络进行预测(python)| 用python创建自己的第一个神经网络模型
粒子群优化算法(PSO)Python实现 |Python粒子群优化算法实现(PSO) | 粒子群优化算法(Particle Swarm Optimization, PSO)详解 | 用粒子群优化算法训练神经网络 | 遗传算法/粒子群算法优化支持向量机分类-附代码 | GA-SVM算法python实现| Python实现粒子群算法(PSO)+支持向量回归机(SVR)的时间序列预测 | 粒子群算法优化支持向量机(pso-svm)| SVM参数参数介绍以及python实现GA对SVM参数的优化
2、随机森林/决策树
决策树与随机森林 | Scikit-learn实现随机森林算法 | python实现决策树、随机森林的简单原理 | 案例 |
3、非线性回归 (XGboost)
【注意点】做第二问的适合适当考虑和第三问的关系
【分类预测模型 | 二分】
【第四问多目标优化】
使用python做遗传算法与基于遗传算法的多目标算法 | Python遗传算法框架使用实例(二)多目标优化问题Geatpy for Python与Matlab的对比学习 | 遗传算法关于多目标优化python(详解) | 基于遗传算法的多目标优化算法 - 秋沙洗月的文章 | Python进化算法之多目标优化与代码实战 - StrongWind的文章 |
D题答疑 ★|
优秀论文中提到的算法:
慢特征分析SFA |无监督学习
★如何通俗理解EM算法 | EM算法详解 | EM算法存在的意义是什么 | 例子
最优模型选择准则AIC&BIC | AIC/BIC | AIC/BIC
详解EM与GMM | python中的GMM | GMM | GMM应用
SKLearn官网文档 | S曲线为例介绍 | 实现例子 |数据降维与可视化
特征选择-方差、Pearson、Spearman | pearson相关系数 |pearson | 使用要注意的地方√ |
三大相关系数pearson、spearman、kendall | 在计算person相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系 | pearson使用总结 | 5相关性分析 |
spearman相关系数 | 统计学三大相关性系数pearson/spearman/kendall |
相关分析-偏相关分析的区别 | 简单相关系数与偏相关系数区别 | 偏相关 |偏相关分析
简单&偏均要求变量都是从正态分布总体中所取得的 |建议SPSS|先回归、求残差、再相关
耦合关系 | 软工-高内聚低耦合 | 耦合高耦合
高维数据的一些概念 | 举例说明 | 高维数据的机器学习 | 高维数据的数据精简方法汇总
★PCA主成分分析 |
白化 |
正则化 | 限制模型复杂度 防止过拟合| 正则化 |深度学习中的正则化
灰色关联分析法 | GRA原理详解 | 建模之GRA | 应用性 | 优缺点 | 数学层面 | 知乎| ★ppt全
BP算法详解 | BP | BP介绍 √ | 动量bp |Back Propagation Algorithm | 前向神经网络 | DP之BP
BP反向传播方法的核心就是对每层的权重参数不断使用梯度下降来进行优化|gradient descent
神经网络处理非线性预测|
优化-梯度下降 |★ 房价&下山 | 原理 | 详解及扩展 |
建模-遗传算法(从零开始 | FCM说明&与K-means -模糊聚类算法 | FCM详解 |模糊|
Sigmoid函数 | 在伯努利分布上好用 | 简述 | python实现 | 优缺点 | 意义
粒子群优化算法 | PSO | Particle Swarm optimization | 详解+代码实现 | 简介 ★| 开发者搜索
优化之粒子群 | 数学优化VS计算优化 | 随机搜索全局优化 |PSO及与GA对比 |速度&位置
PSO基本思想是通过群体中个体之间的协作和信息共享来寻找最优解 | 函数优化 | NN
粒子群:最优化算法 | 模拟退火算法 | 模拟退火学习笔记 | 模拟退火-遗传算法 ★ |
遗传算法GA |Genetic Algorithm | GA入门+实现 | 基础概念&流程 | 09年ppt | 综合
轮盘赌算法 | 轮盘赌选择法 | 单目标遗传算法-精英保留策略 | 应用 |
插值算法 | 插值与拟合 拉格朗日插值&优缺点 |
ML从SVM到SVR | 二者区别 | 认识SVM和SVR | 二者比较 | SVM/C/R比较 |
svm分类(找到一个分割平面上点的线)svr回归(拟合) support vector regression
均方误差MSE | MSE/RMSE/MAE | 总结 | 回归评价指标
互信息理论|互信息 | 熵/互信息/相对熵 | 特征选择之互信息 | 菜菜课程-P39-互信息 |
函数非线性分析 | 属性上 | 线性非线性回归 | 相关关系分析 | 非线性规划分析ppt ↓ |
线性规划的最优解只能存在其可行域边界上(尤其是可顶点);非线性规划最优解可能在可行域内任意一点达到 |
神经网络对非线性问题有较好适应性 |
耦联 |
显著性检验 |
mRMR算法解析 | 最大相关-最小冗余 (mRMR)特征选择 |
随机森林、支持向量机SVC、BP神经网络、遗传算法、粒子群优化参数 |
经验帖+学习课程 |
sklearn中文网 ★| plotlib |
【背景】
乳腺癌 | 乳腺癌流行病学的最新中国数据 | 中国乳腺癌现状2014 | 乳腺癌的流行变化趋势| 全球及我国乳腺癌发病和死亡变化趋势-2021 | WHO-乳腺癌2020+参考文献 |成为全球第一大癌 | 2020年世界癌症报告 |
三苯氧胺TAM-乳腺癌雌激素受体竞争性拮抗剂 | 雌激素受体研究进展 ★| 雌激素受体 |
雌激素和雌激素受体 | 乳腺肿瘤学 ★| 乳腺癌基因组学与蛋白质组学 | 乳腺癌的流行状况及病因学研究☆ |
将机器学习方法、药效团模型和3D- QSAR模型相结合,发现新型DGAT1抑制剂 |
基于生物活性的建模可改善有前景的药物筛选,加速药物发现 ★|一张图可用?| 翻译 |
QSAR | QSAR基本研究方法 | 药物分子设计的重要利器-QSAR |分子描述符 ★ |
√ 分子描述符的含义:①NCDK.QSAR.Descriptors.Moleculars Namespace |
②RDKit::Descriptors Namespace Reference
【参考文献】
基于生物活性的建模(BABM):一个关键的优势是速度快、可转移性/移植性强、
基于生物活性的建模可鉴定靶向SARS-CoV-2的抗病毒药物 | 基于生物活性的药物开发加速 |
6. Hansch, C. Quantitative approach to biochemical structure-activity
relationships. Accounts Chem. Res. 2, 232–239 (1969).
☆ Cherkasov, A. et al. QSAR modeling: where have you been? Where are you
going to? J. Med. Chem. 57, 4977–5010 (2014). 部分 (有参考文献) |
张雅聪, 吕章艳, 宋方方, 等. 全球及我国乳腺癌发病和死亡变化趋势[J]. 肿瘤综合治疗电子杂志, 2021, 7(2): 14-20.
BAO P P , SHU X O, GAO Y T, et al. Association of hormone-related characteristics and breast cancer risk by estrogen receptor/progesterone receptor status in the shanghai breast cancer
study[J]. Am J Epidemiol, 2011, 174(6):661-671.
QSAR |
【分子描述符+ADMET】
药物开发的亲脂性指标 | 24 Arnott, J.A. et al. (2013) Lipophilicity indices for drug development. J. Appl.Biopharm. Pharmacokinet. 1, 31
26|Lipophilicity in drug discovery |
Calculation of Hydrophobic Constant (Log P) from and f Constantst | 27|
灰度关联分析:
Introduction to Grey Systems Theory|灰度分析 A brief introduction to grey systems theory
Atom type electrotopological state || LipoaffinityIndex、SwHBa