多种机器学习算法总结

最新推荐文章于 2020-09-25 21:22:49 发布

dzzhouhahaha

最新推荐文章于 2020-09-25 21:22:49 发布

阅读量369

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_39814560/article/details/89012102

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

K近邻算法

K近邻算法优点就是算法简单，很容易理解，也很方便。
缺点就是计算量大，每次输入一个向量x，把它归类时总要计算一遍离所有点的距离，并且排序。这十分麻烦，对于高维的数据以及样本量较大的数据。其计算量是十分大的，因此不建议使用。
还有一个缺点就是，输入一个n1的向量X，结果需要计算其距离，变成了一个nn的矩阵，因此是数据变大，对存储而言也是一种压力。
决策树
决策树是一种有监督学习的方式，回归树输出同一节点数据的均值作为输出值，分类树输出最后的类别。
决策树的一大优点是即可以处理数值型数据，又可以处理非数值型数据
决策树的构建比较简单，由于是通过数分叉的方式，因此其对数据分类十分快速，其可以在短时间内处理大量数据源。因此我认为是十分适用于短时间处理大量数据的。适合用于做增量式学习方式。
很直观的看出数据是怎么选择的
缺点：
决策树一个缺点就是训练的时候对数据的完整性要求较高，对数据的抗噪性十分弱，如果样本中夹杂噪音数据，那么可能就建成错误的决策树模型。
决策树由于是高度利用训练集的参数，因此很容易发生过拟合，因此需要剪枝操作或者后面的随机森林操作，减少过拟合的和决策树模型的复杂度。
ID3：不能处理特征属性为连续的那种属性，以信息增益作为特征选择的方式。这里会有一个影响就是，信息增益会偏向于实例类别较多的数据，因此会造成决策树的错误。
C4.5:C4.5是在ID3的基础上建立的，采用信息增益比作为特征选择的方式。
CART树：CART树只是二叉树。CART树分为回归树和分类树。分类树采用基尼系数作为特征选择方式（Gini系数越小越好，这也是CART分类树构造的策略），这个既要在特征之间选择，也要在统一特征内部不同的属性类别中选择。回归树是选择分类之后的平方差最小作为学习的策略。我自己的感觉是CART树用得比较多。
但是决策树经常用于企业规划之类的场合，而不是用于故障诊断或者信号处理方面，这个也比较费解。
朴素贝叶斯算法
朴素贝叶斯算法一大优点是：根据其计算原理，不用考虑样本的大小，因此对于样本数据量比较小的数据，训练朴素贝叶斯算法是比较好的，而且新产生的数据也很容易立即加入进行训练新的模型样本。
缺点就是：该算法的一大前提是所有的特征时间是互相独立的，因此不适用于特征间有较强关联关系的数据（现在信号处理这块，至少故障诊断应该特征间关联关系式比较强的，因此也不适用。）
该算法常用于垃圾邮件的检测，其原理就是：把垃圾邮件经常出现的敏感词汇作为特征，每个词汇之间可以认为是独立的，分析在众多样本中敏感词汇的出现频率，就可对垃圾邮件进行判别。其精度是与之前不使用该模型的判别精度进行对比的。
这里对比朴素贝叶斯算法和EM算法：
朴素贝叶斯算法是弱化了样本这一维度的影响。EM算法是弱化了特征这一维度的影响。
朴素贝叶斯是一种有监督的学习方式，EM是一种无监督的学习方式，在建立样本数据的时候EM更胜一筹。
EM算法将隐藏的类别（即模型的输出类别）作为隐含变量，因此不能使用梯度下降的算法，所以EM算法需要使用E步和M步，E步就是建立隐变量与模型参数之间的最优关系，而M步就是利用梯度下降的方法不断优化模型参数。感觉有点像左脚踩右脚飞上天的那种感觉。最后在满足损失函数要求时就可停下来。这里不需要知道每一个数据对应的输出类别，EM算法只需要知道输出的类别有多少种就可以了，然后训练每一种概率（基于前一时刻的模型参数求取概率）。
EMD算法
EMD最大的优势在于其作为一个数据降噪的算法，它能够不像小波变换一样使用外部人为设定的小波函数，自动的将信号分为多个，其中一个就可以反映故障的类别，这里有许多改进的EMD算法，许多论文也是基于改进的EMD之类的，例如：EEMD算法
缺点就是：诸如小波变换、FFT等算法，他们利用外部输入的基函数，将信号的频域很好的划分，但是EMD算法由于没有这个，因此将信号的频域分散至各个IMF中，难以确定跟频率有关的信息。
这里记录一下：故障诊断时域分析方法：统计信息参数特征等。频域分析方法：FFT。时频域分析方法：STFT、小波变换、EMD
PCA降维
PCA是一种无监督降维的方式，也可用于特征的选择。与决策树中的信息增益、信息增益比、Gini指数这些形成对比（这些是需要最后的输出类别计算概率的）
其特点是对mn的m维数据，首先减去平均值，然后计算其协方差，得到一个mm的矩阵（这是最重要的一步，因为特征值分解只能针对方阵），对协方差矩阵利用《线性代数》里求相似对角化，求到对应的相似对角矩阵。根据获取的特征值占比选取相应维度的特征向量，最后实现在限定精度下的降维。

dzzhouhahaha

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
多种机器学习算法总结

K近邻算法K近邻算法优点就是算法简单，很容易理解，也很方便。缺点就是计算量大，每次输入一个向量x，把它归类时总要计算一遍离所有点的距离，并且排序。这十分麻烦，对于高维的数据以及样本量较大的数据。其计算量是十分大的，因此不建议使用。还有一个缺点就是，输入一个n1的向量X，结果需要计算其距离，变成了一个nn的矩阵，因此是数据变大，对存储而言也是一种压力。决策树决策树是一种有监督学习的方式，...
复制链接

扫一扫