↑↑↑关注后"星标"Datawhale
每日干货 & 每月组队学习,不错过
Datawhale干货
作者:莫凡&马晶敏,上海交通大学,Datawhale成员
深度学习不够智能,强化学习又太抽象。深度强化学习是两套理论体系乘风破浪以后的成团产物,其骨架来自强化学习,而灵魂由深度学习赋予。深度强化学习是一个值得持续研究和关注的新方向。
一、深度学习的反思
现在深度学习大热,一点也不输给现在的室外气温,但大热背后也有隐忧,深度学习虽然表面光鲜,但细看就会发现:仍然充满了槽点。
其中一个可谓是直击灵魂。现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”,它有一个特点,就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据,且标识成本很高。很多研究人员,甚至包括有不少的大牛都在反思,琢磨深度学习是不是“错了”。如果说人工智能发展的正道在于模拟人类智能,那深度学习的这套学习模式可能走了歪路。
举一个例子,就是人类的小婴儿学走路。小婴儿学走路肯定不是靠先看一大堆的《如何解锁行走姿势》或者《人类直立动作大全》之类的资料,用行话来说,就是不必依赖外部输入大量的训练数据。那小婴儿是怎么学的呢?靠不断尝试,也就是我们常说的跌倒了爬起来再走。简单来说,这一派研究人员认为:深度学习和人类的学习模式是截然不同的,别看现在大红大紫,早晚是要碰到天花板的。那应该怎么办呢?很多人都指了同一个地方,就是深度强化学习。
二、强化学习原理
深度强化学习是两套理论体系乘