多种机器学习算法总结

K近邻算法

  1. K近邻算法优点就是算法简单,很容易理解,也很方便。
  2. 缺点就是计算量大,每次输入一个向量x,把它归类时总要计算一遍离所有点的距离,并且排序。这十分麻烦,对于高维的数据以及样本量较大的数据。其计算量是十分大的,因此不建议使用。
  3. 还有一个缺点就是,输入一个n1的向量X,结果需要计算其距离,变成了一个nn的矩阵,因此是数据变大,对存储而言也是一种压力。
    决策树
    决策树是一种有监督学习的方式,回归树输出同一节点数据的均值作为输出值,分类树输出最后的类别。
  4. 决策树的一大优点是即可以处理数值型数据,又可以处理非数值型数据
  5. 决策树的构建比较简单,由于是通过数分叉的方式,因此其对数据分类十分快速,其可以在短时间内处理大量数据源。因此我认为是十分适用于短时间处理大量数据的。适合用于做增量式学习方式。
  6. 很直观的看出数据是怎么选择的
    缺点:
  7. 决策树一个缺点就是训练的时候对数据的完整性要求较高,对数据的抗噪性十分弱,如果样本中夹杂噪音数据,那么可能就建成错误的决策树模型。
  8. 决策树由于是高度利用训练集的参数,因此很容易发生过拟合,因此需要剪枝操作或者后面的随机森林操作,减少过拟合的和决策树模型的复杂度。
    ID3:不能处理特征属性为连续的那种属性,以信息增益作为特征选择的方式。这里会有一个影响就是,信息增益会偏向于实例类别较多的数据,因此会造成决策树的错误。
    C4.5:C4.5是在ID3的基础上建立的,采用信息增益比作为特征选择的方式。
    CART树:CART树只是二叉树。CART树分为回归树和分类树。分类树采用基尼系数作为特征选择方式(Gini系数越小越好,这也是CART分类树构造的策略),这个既要在特征之间选择,也要在统一特征内部不同的属性类别中选择。回归树是选择分类之后的平方差最小作为学习的策略。我自己的感觉是CART树用得比较多。
    但是决策树经常用于企业规划之类的场合,而不是用于故障诊断或者信号处理方面,这个也比较费解。
    朴素贝叶斯算法
    朴素贝叶斯算法一大优点是:根据其计算原理,不用考虑样本的大小,因此对于样本数据量比较小的数据,训练朴素贝叶斯算法是比较好的,而且新产生的数据也很容易立即加入进行训练新的模型样本。
    缺点就是:该算法的一大前提是所有的特征时间是互相独立的,因此不适用于特征间有较强关联关系的数据(现在信号处理这块,至少故障诊断应该特征间关联关系式比较强的,因此也不适用。)
    该算法常用于垃圾邮件的检测,其原理就是:把垃圾邮件经常出现的敏感词汇作为特征,每个词汇之间可以认为是独立的,分析在众多样本中敏感词汇的出现频率,就可对垃圾邮件进行判别。其精度是与之前不使用该模型的判别精度进行对比的。
    这里对比朴素贝叶斯算法和EM算法:
    朴素贝叶斯算法是弱化了样本这一维度的影响。EM算法是弱化了特征这一维度的影响。
    朴素贝叶斯是一种有监督的学习方式,EM是一种无监督的学习方式,在建立样本数据的时候EM更胜一筹。
    EM算法将隐藏的类别(即模型的输出类别)作为隐含变量,因此不能使用梯度下降的算法,所以EM算法需要使用E步和M步,E步就是建立隐变量与模型参数之间的最优关系,而M步就是利用梯度下降的方法不断优化模型参数。感觉有点像左脚踩右脚飞上天的那种感觉。最后在满足损失函数要求时就可停下来。这里不需要知道每一个数据对应的输出类别,EM算法只需要知道输出的类别有多少种就可以了,然后训练每一种概率(基于前一时刻的模型参数求取概率)。
    EMD算法
    EMD最大的优势在于其作为一个数据降噪的算法,它能够不像小波变换一样使用外部人为设定的小波函数,自动的将信号分为多个,其中一个就可以反映故障的类别,这里有许多改进的EMD算法,许多论文也是基于改进的EMD之类的,例如:EEMD算法
    缺点就是:诸如小波变换、FFT等算法,他们利用外部输入的基函数,将信号的频域很好的划分,但是EMD算法由于没有这个,因此将信号的频域分散至各个IMF中,难以确定跟频率有关的信息。
    这里记录一下:故障诊断时域分析方法:统计信息参数特征等。频域分析方法:FFT。时频域分析方法:STFT、小波变换、EMD
    PCA降维
    PCA是一种无监督降维的方式,也可用于特征的选择。与决策树中的信息增益、信息增益比、Gini指数这些形成对比(这些是需要最后的输出类别计算概率的)
    其特点是对mn的m维数据,首先减去平均值,然后计算其协方差,得到一个mm的矩阵(这是最重要的一步,因为特征值分解只能针对方阵),对协方差矩阵利用《线性代数》里求相似对角化,求到对应的相似对角矩阵。根据获取的特征值占比选取相应维度的特征向量,最后实现在限定精度下的降维。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值