监督，非监督和强化学习

最新推荐文章于 2022-10-13 09:47:04 发布

nlper

最新推荐文章于 2022-10-13 09:47:04 发布

阅读量1.7k

点赞数

分类专栏： NLP 文章标签：框架扩展网络

NLP 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

最近很多人在问监督学习、非监督学习和强化学习等等之间的关系，我简单地写一点。

机器学习中的方法或范式（paradigm）有很多种分类体系，例如从学习的方式分，有从例子中学习、类比学习、分析学习等，但一般来说，现在研究得最多、被认为最有用的是从例子中学习（learning fromexamples）。对从例子中学习，又有很多分类方法，例如从学习的主动性方面，可以分为主动学习（activelearning）和被动学习（passive learning）；从训练过程启动的早晚，可以分为迫切学习（eagerlearning）和惰性学习（lazy learning）；等等。

最常见的对“从例子中学习”的方法的分类是监督学习、非监督学习和强化学习，这是从训练样本的歧义性（ambiguity）来进行分类的。对监督学习来说，它通过对具有概念标记（conceptlabel）的训练例进行学习，以尽可能正确地对训练集之外的示例的概念标记进行预测。这里所有训练例的概念标记都是已知的，因此训练样本的歧义性最低。

对非监督学习来说，它通过对没有概念标记的训练例进行学习，以发现训练例中隐藏的结构性知识。这里的训练例的概念标记是不知道的，因此训练样本的歧义性最高。对强化学习来说，它通过对没有概念标记、但与一个延迟奖赏或效用（可视为延迟的概念标记）相关联的训练例进行学习，以获得某种从状态到行动的映射。这里本来没有概念标记的概
念，但延迟奖赏可被视为一种延迟概念标记，因此其训练样本的歧义性介于监督学习和非监督学习之间。

需要注意的是，监督学习和非监督学习从一开始就是相对的，而强化学习在提出时并没有从训练样本歧义性的角度考虑其与监督学习和非监督学习的区别，因此，一些早期的研究中把强化学习视为一种特殊的非监督学习。事实上，对强化学习的定位到目前仍然是有争议的，有的学者甚至认为它是与“从例子中学习”同一级别的概念。

从训练样本歧义性角度进行的分类体系，在近几年可望有一些扩展，例如多示例学习（multi-instancelearning）等从训练样本歧义性方面来看很特殊的新的学习框架有可能会进入该体系。但到目前为止，没有任何新的框架得到了公认的地位。另外，半监督学习（semi-supervisedlearning）也有一定希望，它的障碍是半监督学习中的歧义性并不是与生俱来的，而是人为的，即用户期望用未标记的样本来辅助对已标记样本的学习。这与监督学习、非监督学习、强化学习等天生的歧义性完全不同。半监督学习中人为的歧义性在解决工程问题上是需要的、有用的（对大量样本进行标记的代价可能是极为昂贵的），但可能不太会导致方法学或对学习问题视点的大的改变。

不同的分类体系是相交的，例如，监督学习方法既可能是迫切的（例如大多数神经网络、决策树等），也可能是惰性的（例如k近邻等）。另外，分类体系也不是绝对的，例如前面提到的强化学习的情况。