机器学习之基础分类算法总结

最新推荐文章于 2021-12-15 12:48:57 发布

JacksonZ_Tri

最新推荐文章于 2021-12-15 12:48:57 发布

阅读量428

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/weixin_39444552/article/details/83590749

版权

学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

分类问题是指数据集标签为离散型数据的问题，预测得到的也是离散型结果。

1. K-近邻算法

分类流程（无需训练):

计算数据集中每个点与当前点之间的距离，按照距离递增次序排序，选取与当前点距离最小的k个点，确定前k个点所在类别的出现频率，出现频率最高的类别作为当前点的预测分类。

优点：精度高、对异常值不敏感、无数据输入假定、简单。
缺点：计算复杂度高（每次预测都要使用整个数据集），空间复杂度高（必须保存全部数据集），只能用作分类而无法获取其他特征。
适用范围：数值型或标称型(即“类型”)数据，规模小的数据。

2. 决策树

训练流程:

即递归构造决策树，递归的出口为当前节点的标签是否相同（同一分类），或已经使用完所有特征也无法分为同一类，否则计算当前节点每个特征的信息增益（香农熵的期望值），以最大香农熵对应的特征作为最好特征，创建节点，以最好特征为界将数据集分为两个子树，删除最好特征，并递归对子树调用构造函数。

分类流程:

从根节点开始，将节点的分类标签与要判断的数据的对应分类标签作比较，对决策树进行深搜，找到对应叶子节点，并返回当前节点的分类标签。

优点：计算复杂度不高，输出结果易理解（即决策过程透明），对中间值的缺失不敏感（计算信息增益时忽略），可以处理不相关特征数据（建立特征间的联系）。
缺点：可能会产生过度匹配（决策树会对每个特征都做详细考虑)。
适用范围：数值型或标称型数据，适用于较大的数据（一次建树，可以重复使用，但也不能太大，要注意占用空间）。

3. 朴素贝叶斯

训练流程:

即计算独立特征的条件概率（若是某种类别，则取到某个特征为真的概率）。

分类流程:

给定某个数据点，通过独立特征的条件概率利用贝叶斯公式计算属于某个类别的概率。

优点：数据少也有效，可以处理多分类问题。
缺点：对输入数据的准备方式比较敏感。
适用范围：标称型数据。

4. 逻辑回归

略（深度学习中会提到）

5. 支持向量机

数据预准备：

通过径向基核函数将低维数据映射到更高维的空间，得到K矩阵，以便找到超平面。

训练流程（1次迭代）:

对所有训练数据遍历，利用alphas值计算得到误差，利用松弛常量计算上下界，若该点得alpha值可以被优化（即误差太大并且在支持向量上），则选择另一个误差最大的alpha值，同时优化这两个向量，计算新误差更新误差缓存，如果两个向量都不能被优化则退出循环，通过两个alpha值更新b1，b2，最后得到更新后得alpha和b。