一、总体介绍
模式识别(pattern recognition,以下简称PR)源自工程,是一类问题(problem);机器学习源自计算机科学,是一类方法(methodology)。对于一个具体的模式识别问题,可以用handcrafted rule-based的方法去求解,但是更复杂的PR问题往往采用机器学习的方法。
本文主要就模式识别中的机器学习算法展开讨论。
机器学习是关于计算机基于数据构建模型并运用模型来模拟人类智能活动的一门学科。随着计算机与网络的飞速发展,机器学习在我们的生活与工作中起着越来越大的作用,正在改变着我们的生活和工作。
虽然分类对机器学习本身没有实际作用,但是对其进行分门别类有助于我们对于机器学习算法的理解和运用。以下按照不同的标准对常用的方法进行分类,帮助我们理清各个方法之间的联系和区别。按照不同的标准,分类的方式也不一样,下面从两个标准对机器学习方法进行分类。
二、机器学习分类
还是按照传统的分类方法进行一个简单的分类吧。经过学者和工程师的改造,某些方法综合了几种思想,这种这里不单独分类了,暂且列为混血吧。再在后续的介绍中,介绍几种典型的机器学习方法。
1. 学习方法分类
按照学习方法的不同,机器学习一般可以分成4类:
A. 监督学习(Supervised Learning)
训练数据中全部输入都带有目标值的方法称为supervised learning。即是根据所提供的特征和对应的期望目标值,发现输入变量和期望目标值之间的关系。
典型代表包括ME、SVM、LDA、LR。
B. 非监督学习(Unsupervised Learning)
训练数据中输入没有对应的目标值的方法称为unsupervised learning。这类学习的目标是发现输入变量的内部关系。按照具体的内部联系类型,unsupervised learning又可以分成多种问题,如,聚类、密度分析等。
典型代表包括Kmeans、PCA。
C. 半监督学习(Semi-supervised Learning)
输入变量有的带目标值,有的不带的称为semi-supervised learning。这样的学习方法需要根据现有的目标值,然后分析数据的内在关系,逐步对未带目标值的变量打标签。这种方法一般用在标注数据较少的情况,或者标注成本较大的情况,这样可以利用机器学习的算法逐步扩大标注的样本。
半监督学习思想很接近人类的学习过程,即在不断的对新事物的认识过程中,不断地学习新的知识。但是,需要一定的措施来保证我们的学习方向是正确的,否则,与康庄大道渐行渐远。
目前,在半监督学习中有三个常用的基本假设来建立预测样例和学习目标之间的关系,即聚类假设(Cluster Assumption)、流形假设(Manifold Assumption)和局部与全局一致性假设(Local & Global Consistency Assumption)。
典型方法包括TSVM、co-training等。
D. 强化学习(Reinforcement Learning)
所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作.由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
这类学习是在supervised learning的基础上,允许机器自行选择training data;同时,training在获取信息的同时也会带来cost或loss,从而引发一个tradeoff。
方法 |
监督学习 |
非监督学习 |
半监督学习 |
强化学习 |
优点 |
具有一定的指导信息,能够更好地学习 |
能够根据数据内在的性质进行分类 |
综合监督学习和非监督学习的优点 |
不需要人工设计具体的分类算法 |
缺点 |
缺少指导策略 |
对噪声较敏感 |
||
适用情况 |
明确需要对数据进行分类处理 |
样本选择、聚类、密度分析等 |
标注样本难以获取或者获取成本较高 |
|
典型方法 |
ME、SVM |
Kmeans、PCA |
TSVM |
蒙特卡罗算法 |
2. 学习理论分类
按照底层模型方法可以分为基于统计的机器学习、基于符号的机器学习。
A. 统计机器学习
机器学习是挖掘所给样本中的潜在模式,是对已有信息的一种认知,自然离不开对已有数据的统计和分析。那么统计机器学习就是通过运用数据以及统计方法提高结果预测效果。
基于统计的机器学习方法很多,比较经典的方法有:最大熵(ME)、SVM、LDA、贝叶斯分类、PLSA、SVD、等。
B. 符号机器学习
与统计(数字化)机器学习相对的,可以叫做符号(数学化、形式化)机器学习:统计学习的质料是数字,而它的质料是符号;统计学习学的是模型参数,它学的是模型结构;统计学习的搜索空间是连续的,它的搜索空间是离散的。常听说有基于统计与基于规则的区别,那么符号机器学习就是要自动学习那些规则。如果说统计机器学习是黑箱子,参数的意义难以解释,目的只是能够根据x输出合理的y,那么符号机器学习的目标就是能找出人能够理解的对象的规律,让人能够直接增加对事物的认识。</