统计学习理论简介

    统计学习理论是一种研究训练样本有限情况下的机器学习规律的学科。它可以看作是基于数据的机器学习问题的一个特例,即有限样本情况下的特例。统计学习理论从一些观测(训练)样本出发,从而试图得到一些目前不能通过原理进行分析得到的规律,并利用这些规律来分析客观对象,从而可以利用规律来对未来的数据进行较为准确的预测。例如,对全国未来几年人口数量进行预测,就需要先采集到过去几年甚至几十年的人口数据,并对其变化规律做出统计学方面的分析和归纳,从而得到一个总体的预测模型,这样就可以对未来几年的人口总体走势作一个大概的估计和预测。显然,这里采集到的过去人口的数据越准确,年份越长,分析归纳得到的统计规律就越准确,对未来人口预测就越接近真实水平。另外,如果只采集到了过去几年的人口数据,那么,这样得到的统计模型无论如何也是不够完美的。所以,不难发现,统计学习理论主要是研究以下三个问题:

① 学习的统计性能:通过有限样本能否学习得到其中的一些规律?

② 学习算法的收敛性:学习过程是否收敛?收敛的速度如何?

③ 学习过程的复杂性:学习器的复杂性、样本的复杂性、计算的复杂性如何?

     如今,统计学习理论在模式分类、回归分析、概率密度估计方面发挥着越来越重要的作用。

     统计模式识别问题可以看做基于机器学习的一个特例。而基于机器学习的方法是现代智能技术中十分重要的一个方面,主要研究如何从一些样本出发得出目前不能通过原理分析得到的规律,利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。统计学中关于估计的一致性、无偏性和估计方差的界等,以及分类错误率等渐近性特征是实际应用中往往无法得不到满足,而这种问题在高维空间时尤其如此。这实际上是包含模式识别和神经网络等在内的现有的机器学习理论和方法中的一个根本问题。Viadimir N.Vapnik等人在20世纪60年代就开始研究有限样本情况下的机器学习问题,但由于当时这些研究尚不十分完善,在解决模式识别问题中往往区域保守,且数学上比较艰难,而直到90年代以前并没有提出能够将其理论付诸实现的较好方法。加之当时正处在其它学习方法飞速发展的时期,因此这些研究一直没有得到充分的重视。直到90年代中,有限样本情况下的机器学习理论研究研究逐渐成熟起来,形成了一个较完善的理论体系---统计学习理论。而同时,神经网络等较新兴的机器学习方法的研究则遇到了一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习的难题、局部极小点的问题等。在这种情况下,试图从更本质上研究机器学习问题的统计学习理论逐步得到重视。

    1992-1995年,在统计学习理论的基础上发展出了一种新的模式识别方法----支持向量机(Support Vector Machine, SVM),在解决小样本问题,非线性及高维模式识别问题中表现出了许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。虽然统计学习理论和支持向量机方法尚有很多问题需要进一步研究,但很多学者认为,它们正在成为模式识别和神经网络研究之后机器学习领域新的研究热点,并将推动机器学习理论和技术的重大发展。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值