无监督学习:大数据带我们洞察现在,但小数据将带我们抵达未来

人工智能 专栏收录该内容
4211 篇文章 116 订阅

https://www.toutiao.com/a6681041858203746830/

 

过去十年里,机器学习在语言处理、图像识别、自动驾驶等商业应用,甚至围棋、星际争霸和DOTA等游戏领域里都取得了空前进步。这些成功在很大程度上是通过监督学习和强化学习这两种学习模式中的一种,对神经网络进行训练来实现的。

它们的共同之处在于都需要人类设计训练信号。在监督学习中,这些信号通常被定义为“目标”,比如图片的正确标签;在强化学习中,则为对成功的“奖励”,比如在游戏中获得高分。也就是说,人类其实限制了学习成果。

尽管一些科学家认为,给出包容性较高的训练规则或许足以产生通用人工智能。但更多人认为,真正的人工智能需要能够自我学习,把对一个领域的学习成果应用于另一个领域,就像儿童探索世界一样。

无监督学习:大数据带我们洞察现在,但小数据将带我们抵达未来

 

如果我们观察一个儿童的学习过程,就会发现,她的长辈或会耐心教她如何分辨动物(监督学习),或会在她拼好拼图后用掌声鼓励(强化学习)。但在绝大部分时间里,儿童都是在自我探索世界,通过好奇心、游戏和观察来理解周遭环境,这就是无监督学习。

进行无监督学习的一个关键动力,来自于人类设计训练信号的一大缺陷:虽然传递给算法的数据具有非常丰富的内部结构(比如图像、视频和文本),但用于训练的目标和奖励通常比较稀少(比如“狗”的标签只适用于特定物种,或者只用1和0代表游戏的成功和失败)。这意味着,算法学到的大部分内容主要是对数据本身而非对任务的理解。

但是在创造自主智能的过程中,我们会对计算机程序理解所观察到的数据和信息(而非一个特定的任务)进行奖励。换句话说,程序是为了学习而学习。

解码视觉的元素

2012年,AlexNet(以其首席架构师Alex Krizhnevsky命名)席卷了ImageNet分类竞赛,成为了深度学习的里程碑。在当时,AlexNet具备了前所未有的图像识别能力,但算法内部的工作过程更加值得注意。

当研究人员试图分析AlexNet如何解释图像时,他们发现,它创建了非常复杂的内部表达,来对应输入值。诸如纹理和边缘这样的低层特征,都被放入了底层,然后在高层中组合成了更高级的概念,比如轮子和狗。

这与人类大脑处理信息的方式非常相似,其中初级感官区域负责处理边缘和纹理等信息,然后在高级处理区域组合起来,最后构成面部这样的复杂对象。因此,我们可以用视觉原语(visual primitives)构建复杂场景的表达,就像是用多个单词组成一句话一样。

无需明确指引,AlexNet仅凭自己就发现了这一点,找到了一种挖掘和组合“视觉词汇”的方式来解决问题。从某种意义上说,它学会了哲学家路德维希·维特根斯坦所说的“语言游戏”,即小孩子学习母语时玩的游戏,可以做到迭代“翻译”像素,形成分类标签。

无监督学习:大数据带我们洞察现在,但小数据将带我们抵达未来

 

迁移学习

从通用智能的角度来看,“AlexNet词汇”最有趣的地方在于,它可以被重复使用或迁移到未经训练的视觉任务中,例如识别整个场景,而不是单个对象。在不断变化的世界中,迁移是一种必不可少的能力,人类尤其擅长于此。

面对相似的事物和环境的改变,我们能够迅速调整已掌握的技能和理解。例如,学习古典音乐的钢琴家可以相对轻松地掌握爵士钢琴。理论上,正确理解事物内部运作规律的人工智能系统,也应该可以达到类似的水平。

尽管如此,AlexNet等分类器学到的表达仍然具有局限性。具体来说,由于我们只用单一类别(猫、狗、汽车、火山)训练网络,那么在它眼中,只要不是用来推断类别的信息,可能都是无用的,哪怕它们对其它任务来说价值巨大。比如,如果分类标签总是指向前景物体,那么分类器很可能忽略图像的背景。

一种可能的解决方案,是提供更全面的训练信号。简单的例子就是,标注不能再是简单的“狗”,而是“在阳光明媚的公园中叼飞盘的柯基”这样的具体描述。然而,实现这一目标很难,尤其是现代机器学习需要海量数据的情况下。

无监督学习:大数据带我们洞察现在,但小数据将带我们抵达未来

 

而且,这也可能不足以满足完成任务所需的全部信息。

对无监督学习来说,想要获得丰富而广泛的可转移式表达,最基本的前提就是:掌握数据中可以学到的全部信息。

如果“表征学习转移”的概念看起来过于抽象,那么我们可以想象一个会画简笔画的小孩。她首先将人体特征用最简单的方式表达出来:头、五官、身体和四肢等,既高度紧凑,又十分灵活(完成了表征学习)。然后通过添加具体细节,她就可以为同学创作卡通肖像:有的戴着眼镜,有的喜欢红色T恤等等,各不相同(迁移到同学身上)。

重要的是,她学习这项技能不是为了完成特定任务或获得奖励,而是为了反映周围的世界。

在创造中学习:生成模型

在无监督学习领域,最简单的任务或许就是训练算法来生成自己的训练数据。但所谓的生成模型不能只产生与训练数据集相似的数据,而是需要生成一个能够抽取出基类数据的模型:不是仅生成一匹马或一道彩虹的照片,而是所有的马和彩虹的照片集合;不是某一位演讲者的一个特定表达,而是话语的一般分布。

正如理查德·费曼(Richard Feynman)所言:“我无法创作的东西,便是我不能理解的”。生成模型能够建造可信性够高的数据实例,便是理解这些数据的最有力的证明。

对于图像来说,迄今最成功的生成模型是生成对抗网络(GAN)。该模型由生成器和判别器两部分组成,这两者在“造假”的竞赛中一个负责产出,一个负责识别。生成器产生的目的是产出以假乱真的图像,而判别器则在成功识别“赝品”后获得奖励。

生成的图像最开始是杂乱又随机的,但是经过多轮迭代的修正以及与判别器不断相互抗衡后,生成对抗网络所产生的图像最终会与真实的照片无差。此外,这类模型也能根据用户的粗略草图,绘制十分细腻的风景图像。

从下图中,我们不难发现生成对抗网络已经学会表达训练集图片里的关键特征,如动物的身体结构、草的纹理、光影细节(即使是通过肥皂泡的折射)。

无监督学习:大数据带我们洞察现在,但小数据将带我们抵达未来

 

当然,仔细看还是能发现些许异常的,比如白狗多了一条腿,喷泉有一个直角水柱。虽然人们会竭力避免生成模型出现瑕疵,但它们的存也并非毫无意义。使用图像等常用数据最大的好处就是,可以根据瑕疵推断模型已学到的内容和未学到的内容。

在预测中创造

在无监督学习领域里,另一个值得一提的手段是自回归模型(Autoregressive Models),即将数据切分成序列片段,依次预测每个片段。这种模型可以通过不断预测下组数据来生成新的数据,并将预测作为输入去继续猜测。

最常见的自回归模型莫过于语言模型,因为语言模型的每个词,都是由它前面的词预测而来。一些邮件和聊天应用的文本预测功能皆基于这类模型。而最新的进展让语言模型能生成相当合理的文章段落,比如这段由OpenAI GPT-2生成的文字:

无监督学习:大数据带我们洞察现在,但小数据将带我们抵达未来

 

如同生成对抗网络一样,这段文字中也有一些瑕疵,比如误把独角兽形容为有“四只角”。这再次为我们展现了模型的理解局限。

通过调控能制约预测输出的输入序列,自回归模型可以实现序列之间的转换。比如一个小应用可以把输入的文字转换为十分真实的手写字体,还有能将文本转换为自然语音的WaveNet,现被用于生成Google助手的语音。

自回归模型了解数据的方法是通过特定的顺序,去预测数据的每一部分。而更广泛的无监督学习算法,则可以通过任意部分数据去预测其他部分。例如,从一句话里删除一个词,然后试图用剩下的部分来预测这个词。通过进行大量的局部预测,整个系统相当于被迫学习了整体数据。

对于生成模型最大的担忧在于其被滥用的可能。虽然早就存在修改照片、视频和音频来伪造内容的技术,但生成模型让恶意编辑操作变得更容易。目前已经出现了这种所谓的“deepfakes”内容,比如大家熟悉的假奥巴马发言视频。

无监督学习:大数据带我们洞察现在,但小数据将带我们抵达未来

 

但幸运的是,已经有很多大型项目试图解决这些问题。比如利用统计手段来检测合成内容和确认真实内容、提高公众意识,以及一些关于限制成熟生成模型的讨论。

此外,我们还可以利用生成模型本身来检测合成内容与反常数据,比如检测虚假语音、识别异常支付以避免顾客遭受诈骗等。而研究人员则需要更好地理解生成模型并减少其下游风险。

重新思考“智能”

生成模型本身足以吸引人,但它们最大的吸引力在于它们还可以作为走向通用智能的踏板,生成数据的能力就像一种想象力,模型也会因此具有规划和推理未来的能力。研究表明,学习预测环境的各个方面能丰富AI的世界模型,从而提高其解决问题的能力。

这些结果与我们对人类思维的直觉隐隐相合。“在没有明确的监督下去了解世界”是我们常说的“智能”的基础能力。在乘坐火车时,我们可能会无精打采地凝视窗户外、手指无意识地在座位上滑动、或观察周围的乘客。

我们在这些学习行为中没有任何固定的目的,但我们几乎无法停止收集信息,我们的大脑不断地致力于了解周围的世界,以及我们在这个世界中的位置。

  • 0
    点赞
  • 0
    评论
  • 0
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 技术工厂 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值