监督,非监督和强化学习

最近很多人在问监督学习、非监督学习和强化学习等等之间的关系,我简单地写一点。

机器学习中的方法或范式(paradigm)有很多种分类体系,例如从学习的方式分,有从例子中学习、类比学习、分析学习等,但一般来说,现在研究得最多、被认为最有用的是从例子中学习(learning fromexamples)。对从例子中学习,又有很多分类方法,例如从学习的主动性方面,可以分为主动学习(activelearning)和被动学习(passive learning);从训练过程启动的早晚,可以分为迫切学习(eagerlearning)和惰性学习(lazy learning);等等。

最常见的对“从例子中学习”的方法的分类是监督学习、非监督学习和强化学习,这是从训练样本的歧义性(ambiguity)来进行分类的。对监督学习来说,它通过对具有概念标记(conceptlabel)的训练例进行学习,以尽可能正确地对训练集之外的示例的概念标记进行预测。这里所有训练例的概念标记都是已知的,因此训练样本的歧义性最低。

对非监督学习来说,它通过对没有概念标记的训练例进行学习,以发现训练例中隐藏的结构性知识。这里的训练例的概念标记是不知道的,因此训练样本的歧义性最高。对强化学习来说,它通过对没有概念标记、但与一个延迟奖赏或效用(可视为延迟的概念标记)相关联的训练例进行学习,以获得某种从状态到行动的映射。这里本来没有概念标记的概
念,但延迟奖赏可被视为一种延迟概念标记,因此其训练样本的歧义性介于监督学习和非监督学习之间。

需要注意的是,监督学习和非监督学习从一开始就是相对的,而强化学习在提出时并没有从训练样本歧义性的角度考虑其与监督学习和非监督学习的区别,因此,一些早期的研究中把强化学习视为一种特殊的非监督学习。事实上,对强化学习的定位到目前仍然是有争议的,有的学者甚至认为它是与“从例子中学习”同一级别的概念。

从训练样本歧义性角度进行的分类体系,在近几年可望有一些扩展,例如多示例学习(multi-instancelearning)等从训练样本歧义性方面来看很特殊的新的学习框架有可能会进入该体系。但到目前为止,没有任何新的框架得到了公认的地位。另外,半监督学习(semi-supervisedlearning)也有一定希望,它的障碍是半监督学习中的歧义性并不是与生俱来的,而是人为的,即用户期望用未标记的样本来辅助对已标记样本的学习。这与监督学习、非监督学习、强化学习等天生的歧义性完全不同。半监督学习中人为的歧义性在解决工程问题上是需要的、有用的(对大量样本进行标记的代价可能是极为昂贵的),但可能不太会导致方法学或对学习问题视点的大的改变。

不同的分类体系是相交的,例如,监督学习方法既可能是迫切的(例如大多数神经网络、决策树等),也可能是惰性的(例如k近邻等)。另外,分类体系也不是绝对的,例如前面提到的强化学习的情况。

 

原帖:http://www.9zi.com/node/2033

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值