模式识别

分类算法

一 神经网络BP, RBF,RNN,PNN hopfield,ELM等SVM,基本想法是把低维线性不可分问题映射到高维变成线性可分问题,有最大间隔的优点,还可以对添加惩罚因子避免overifitting,映射的空间维数与kernel有关,高斯是映射为无穷维,可以用泰勒展开解释。朴素贝叶斯分类器,基于贝叶斯公式。是一种计算概率的方法。训练集如果是偏斜集,正反例个数差别太大,用accuracy和recall的调和平均作为指标。解释性不强。就像一个黑箱。

二 决策树解释性强, 基于信息熵和信息增益率建造树,可能出现过拟合问题,这是就需要剪枝。一个更好的方法是用随机森林,过拟合问题可以减弱。但树的个数需要设置,基于有放回的抽样来选训练集,其他得作为验证集和测试集。

三 模糊模式识别计算贴近度 取最小

回归和预测算法可以用标准方程解法,参考计算方法。可以用逻辑回归,神经网络, SVR等方法灰色预测GM(1,1) 等时间序列预测,有AR,移动平均其中还可以加入差分来预测长期趋势,消除季节变动等因素。matlab里还有NAR,NARX等神经网络。过拟合问题一般会在目标函数加入惩罚因子和正则化项,叫做正则化(regularization)。

神经网络一般会对输入数据做归一化消除量纲,还能加快收敛速度。更好的方法是用集成学习里的bagging,可以提高泛化性或者说验证集的error即方差。集成学习包括bagging,boostingbagging是并行结构, 随机森林就是一种并行结构,最后结果根据多个神经网络或者决策树的结果来定。规则有少数服从多数和加权投票两种,每个子分类器的权重也是通过机器学习来的。boosting侧重于减少测试集误差,每个子分类器要求不高,只需要比随机好一点。常用adboost, 举例如先让第一个分类器去分,第二个分类器输入第一个分类器分错的set,第三个分类器输入第一个和第二个有分歧的set。adboost权重是可以证明的,可以从理论上推导误差是趋于0的。每个样本是有权重的,分错的样本权重大,重点学习。regionboost是将每个权重与输入关联起来,称之为动态权重,第二个分类器是将第一个分错和分对的分开。权重根据KNN来计算,在高维空间距离可以用曼哈顿距离好于欧式距离。regionboost误差会大于adaboost 但泛化性强。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值