DM知识点复习

最新推荐文章于 2024-09-14 13:55:57 发布

littleway

最新推荐文章于 2024-09-14 13:55:57 发布

阅读量698

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/tinyway/article/details/24669703

版权

算法专栏收录该内容

8 篇文章

订阅专栏

SVM：

是一种监督式学习的方法，采用二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

线性：所以超平面公式：

二分类：logistic回归：，把所有点映射到0~1之间。

其实，超平面公式就是我们最终要求的，使得所有的证样本点代入超平明>=1，负样本<=-1，而这处于=1，-1的那些样本点就是所谓的支持向量Support Vector

以上为线性可分的情况下，如果线性不可分就需要引入一个概念：特征空间的隐式映射：核函数。

对于非线性的情况，SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。

K-Means：

是一种无监督学习。以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

假设要把样本集分为c个类别，算法描述如下：
（1）适当选择c个类的初始中心；
（2）在第k次迭代中，对任意一个样本，求其到c各中心的距离，将该样本归到距离最短的中心所在的类；
（3）利用均值等方法更新该类的中心值；
（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变（标准测度函数开始收敛为止），则迭代结束，否则继续迭代。
该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式。

EM最大期望算法：

是一种无监督学习。

最大期望（EM）算法是在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。
最大期望算法经过两个步骤交替进行计算：
第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；
第二步是最大化（M），最大化在 E 步上求得的最大似然值来计算参数的值。
M 步上找到的参数估计值被用于下一个 E 步计算中，这个过程不断交替进行。
总体来说，EM的算法流程如下：
1.初始化分布参数
2.重复直到收敛：
E步骤：估计未知参数的期望值，给出当前的参数估计。
M步骤：重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。

也就是通过分布参数求未知参数的期望估计，然后通过求得的未知参数的期望估计来求分布参数，以此迭代。

kNN最邻近结点算法:

k-nearest neighbor classification，思想比较简单：计算一个点A与其他所有点之间的距离，取出与该点最近的k个点，然后统计这k个点里面所属分类比例最大的，则点A属于该分类。

adaboost：？？？？？

核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

过程如下所示：
1. 先通过对N个训练样本的学习得到第一个弱分类器；
2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本，通过对这个样本的学习得到第二个弱分类器；
3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本，通过对这个样本的学习得到第三个弱分类器；
4. 最终经过提升的强分类器。即某个数据被分为哪一类要通过， ……的多数表决。

DT决策树算法：

1）树以代表训练样本的单个结点开始。
2）如果样本都在同一个类．则该结点成为树叶，并用该类标记。
3）否则，算法选择最有分类能力的属性作为决策树的当前结点．
4）根据当前决策结点属性取值的不同，将训练样本数据集tlI分为若干子集，每个取值形成一个分枝，有几个取值形成几个分枝。匀针对上一步得到的一个子集，重复进行先前步骤，递4'I形成每个划分样本上的决策树。一旦一个属性出现在一个结点上，就不必在该结点的任何后代考虑它。
5）递归划分步骤仅当下列条件之一成立时停止：
①给定结点的所有样本属于同一类。
②没有剩余属性可以用来进一步划分样本．在这种情况下．使用多数表决，将给定的结点转换成树叶，并以样本中元组个数最多的类别作为类别标记，同时也可以存放该结点样本的类别分布，
③如果某一分枝tc，没有满足该分支中已有分类的样本，则以样本的多数类创建一个树叶。