数据预处理
- 6.3. Preprocessing data — scikit-learn 1.3.0 documentation
-
描述性统计
-
判断数据异常
- 箱型图,小波分析等
-
Standardization, or mean removal and variance scaling
- 将数据缩放到一定范围(通常为0-1)
- 缩放稀疏数据
- 异常值缩放数据(有许多异常值时)
- 中心化核矩阵
-
非线性变换(映射到均匀分布/高斯分布)
-
归一化
-
编码分类特征
-
量化(分箱)针对连续数据
-
降维
-
插补缺失值
- 6.4. 缺失值的插补 — scikit-learn 1.3.0 文档
- 机器学习-常见的数据预处理_yehui_qy的博客-CSDN博客
分类模型
-
聚类分析
- 距离聚类(系统聚类)
- K-均值
- 二阶聚类
- 模糊聚类
- 与遗传算法、神经网络或灰色理论联合的聚类方法
-
判别分析
- 距离判别
- 把高维的样本投射到低维上的更适合做降维工具的Fisher判别(LDA)
- 对小规模的数据表现很好,需要计算先验概率,分类决策存在错误率的贝叶斯判别
-
其他的
- 测量不同特征值之间的距离的方法进行分类的k近邻
- 擅长非线性数据,容易出现过拟合的决策树机器学习超详细实践攻略(9):决策树算法使用及小白都能看懂的调参指南 - 知乎 (zhihu.com)
- 数据维度相对低(几十维),同时对准确性有较高要求时可以用的随机森林
- 样本线性可分的Logistic【机器学习】关于逻辑斯蒂回归,看这一篇就够了!解答绝大部分关于逻辑斯蒂回归的常见问题,以及代码实现 - 知乎 (zhihu.com)
- 期末考试折磨我的不断迭代出真知的EM算法(不建议使用)
- 期末考折磨我的核函数难死的svm(不建议使用)
评价模型
- 完全依靠主观做出的优劣排序的层次分析层次分析法 AHP_ahp案例 csdn_wamg潇潇的博客-CSDN博客
- 线性规划、整数规划、 0-1 规划
- 灰色关联度分析(部分信息已知而部分信息未知的系统,常常采用离散模型,建立一个按时间逐段进行短期分析)清风数学建模学习笔记——灰色关联分析(GRA)详细解读与案例分析_灰色关联度分析结果如何解读_Xiu Yan的博客-CSDN博客
- 多层次的复杂问题评判效果较好,不能解决评价指标间相关造成的评价信息重复问题,大量运用主观判断的模糊综合评判模糊决策分析方法_wamg潇潇的博客-CSDN博客
- 利用原始数据,通过检测评价对象与最优解、最劣解的距离来进行排序的Topsis清风数学建模学习笔记——TOPSIS法(优劣解距离法)_Xiu Yan的博客-CSDN博客
- 方差分析,协方差分析
- 多目标规划
- 支持向量机
- 多元分析:1、聚类分析
2、主成分分析
3、因子分析
4、判别分析
5、典型相关分析
6、对应分析
7、多维标度法
8、偏最小二乘回归分析 - 动态规划
- 更客观的、需要大量的训练样本、不能说明因果的神经网络
预测模型
- 回归分析
- 适用于基于相关原理的因果预测模型微分方程
- 插值与拟合
- 只适用于中短期的预测,只适合近似于指数增长的预测;可处理少数据,不优先使用的灰色预测灰色预测法 —— python_灰色预测python_洋洋菜鸟的博客-CSDN博客
- 时间序列分析时间序列预测从入门到精通(三):深度学习方法 - 知乎 (zhihu.com)时间序列预测从入门到精通(一):基础知识 - 知乎 (zhihu.com)时间序列预测从入门到精通(三):深度学习方法 - 知乎 (zhihu.com)
- 只适用于短期预测,系统未来时刻的情况只与现在有关,而与过去的历史无直接关系的马尔科夫链数学建模常用模型23:马尔可夫预测方法_Halosec_Wei的博客-CSDN博客数学建模之马尔可夫链模型详解(附详细Matlab程序)_左手の明天的博客-CSDN博客
- 神经网络
- 核函数难死的支持向量机
- 组合预测
优化
- 线性规划、整数规划、0-1规划
- 多目标规划
- 图与网络(最短路径问题、网络最大流问题、最小费用最大流问题、最小生成树问题(MST)、旅行商问题(TSP)、图的着色问题)
- 微分方程(阻滞增长模型、SARS传播模型)
- 概率模型(决策模型、随机存储模型、随机人口模型、报童问题、Markov链模型)
其他
- 随机模拟,可以检验算法正确性的蒙特卡洛
- 解决困难NP问题的模拟退火,神经网络,遗传算法
解决过拟合的方法
- 增加数据量(万能办法)
- 减少特征:手动剔除;特征选择算法
- 正则化:结构风险最小化策略
- 数据稀疏:L1正则化
- 其他情况:L2正则化
客观赋权的方法
- 变异系数法(前提是各个指标重要性相当。指标方差越大只能说明该指标对不同方案的区分度很高,事实上并不能等同于指标的重要度)
- 确定出的权重可以进行修正,使用信息熵的熵权法熵权法_wenxin_titanium的博客-CSDN博客
- CRITIC(比前两个好,但使用CRITIC则不宜进行标准化)客观赋权法——CRITIC权重法_critic法_卖山楂啦prss的博客-CSDN博客