机器学习归纳总结（待更新）_机器学习归纳学习-CSDN博客

本文链接：https://blog.csdn.net/heweiting123/article/details/107688570

1.数据预处理

1.1.数据变换

1.1.1.主成分分析PCA（降维，数据预处理）

主要思想：将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。
场景：语音、图像、通信的分析处理与压缩。
优点：降低数据的复杂性，识别最重要的多个特征。
缺点：主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强;有可能损失有用的信息。

1.1.2.独立成分分析（降维，数据预处理）

主要用于揭示随机变量、测量值或信号集中的隐藏因素。ICA对观测到的多变量数据定义了一个生成模型，这通常是作为样本的一个大的数据库。在模型中，假设数据变量由一些未知的潜在变量线性混合，混合方式也是未知的。潜在变量被假定为非高斯分布并且相互独立，它们被称为观测数据的独立分量。
应用：数字图像、文档数据库、经济指标和心理测量等。

1.1.3.奇异值分解（简化数据，数据预处理）

主要思想：将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的特性。
场景：推荐系统、图片压缩等。
优点：简化数据，去除噪声点，提高算法的结果。
缺点：数据的转换可能难以理解。

2.特征工程

2.1.特征选择

2.2.特征抽取

2.3.特征组合

3.监督学习

特点：通过有标记的训练数据集来推断机器学习模型。（有标签的数据集）
主要算法：线性回归、线性判别、支持向量机、决策树、朴素贝叶斯分类、线性回归、k-近邻算法等

3.1.Regression回归

关注变量之间关系的建模，利用模型预测误差测量进行反复提炼。
种类：最小二乘法（线性）、逻辑回归、逐步回归、多元自适应回归、Logistic 回归等
场景：营销分析、销量预测、信用评分、事件概率等。

3.2.线性判别分析（分类）

Logistic 回归是一种传统的分类算法，它的使用场景仅限于二分类问题。如果有两个以上的类，那么线性判别分析算法(LDA)是首选的线性分类技术。预测结果是通过计算每个类的判别值、并将类别预测为判别值最大的类而得出的。

3.3.支持向量机SVM（分类）

二元分类的线性分类器，对学习样本求解的最大边距超平面。
场景：文本分类、人像识别、医学判断等
优点：泛化错误率低，结果易解释。
缺点：对大规模训练样本难以实施，解决多分类问题存在困难，对参数调节和核函数的选择敏感。

3.4.决策树（分类）

一种预测模型，代表对象属性值与对象值直接的映射关系。
种类：分类回归树(CART)、单层决策树、随机森林等
场景：垃圾邮箱判断、新闻类别分类、文本感情判断、人脸识别
缺点：对缺失数据处理比较困难

3.5.朴素贝叶斯分类（分类）

对于给出的待分类项，求解此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类属于哪个类别。
公式： p(A|B)= p(B|A)×(A/p(B)，其中P(A|B)表示后验概率，P(B|A)是似然值，P(A)是类别的先验概率，P(B)代表预测器的先验概率。
场景：文本分类、人脸识别、欺诈检测
优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对输入数据的准备方式较为敏感。

3.6.K-近邻算法KNN（分类）

采用测量不同特征之间的距离进行分类
场景：字符识别、文本分类、图像识别等
优点：简单、易于理解、易于实现，无需估计参数。此外，与朴素贝叶斯之类的算法比，无数据输入假定、准确度高、对异常数据值不敏感。
缺点：对于训练数据依赖程度比较大，并且缺少训练阶段，无法应对多样本。

4.非监督学习

特点：通过未标记的数据集中挖掘数据相互之间的隐含关系。（无标签的数据集）
类别：基于质心的算法、基于连接的算法、基于密度的算法、概率、降维
主要算法：K-均值聚类、FP-growht、Apriori等

4.1.K-均值聚类K-Means

主要思想：一种迭代求解的聚类分析算法，采用距离作为相似性指标。随机确定K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。
场景：图像处理、数据分析以及市场研究等。
优点：算法简单容易实现。
缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。

5.强化学习

特点：不需要预先提供任何数据，通过接受环境对动作的反馈从而获得学习信息并更新模型参数。
主要算法：Q-learning等

5.1.Q-learning

主要思想：根据动作值函数评估应该选择哪个动作，这个函数决定了处于某一个特定状态以及在该状态下采取特定动作的奖励期望值。
场景：游戏开发。
优点：可以接收更广的数据范围。
缺点：缺乏通用性。

6.集成学习

集成是合并多个机器学习模型来构建更强大的模型的方法。

6.1.集成策略

平均值：针对回归问题，对多个个体学习器的结果计算平均值作为最终结果，可以使用算数平均值、加权平均值等。
投票法：针对分类问题，对多个个体分类器的结果使用投票作为最终结果，可以使用少数服从多数、绝对多数、加权投票等。
学习法：对个体学习器结果再使用一个学习器来处理，即stacking