深度学习不可逾越的鸿沟

深度学习本质上是一种基于样本数据、使用多层神经网络对模式进行分类的统计学技术。大体上,我们可以把神经网络所学习的输入与输出之间的关系理解为映射。神经网络,尤其是具备多个隐藏层的神经网络尤其擅长学习输入-输出映射。

他的本质决定了他所擅长的事情,深度学习系统最常用作分类系统,因其使命是决定给定输入所属的类别(由神经网络的输出单元定义)。只要有足够的想象力,那么分类的能力是巨大的;输出可以表示单词、围棋棋盘上的位置等几乎所有事物。

深度学习有一下缺陷:

训练需要大量数据

深度学习要学会一种知识需要大量的数据样本,如认识猫需要成千上万的图片,而人只需要少量的几张图片加以一定的讲解说明,识别率就能比深度学习好很多。人类只需要少量的尝试就可以学习抽象的关系。如果我告诉你 schmister 是年龄在 10 岁到 21 岁之间的姐妹。可能只需要一个例子,你就可以立刻推出你有没有 schmister,你的好朋友有没有 schmister,你的孩子或父母有没有 schmister 等等。

深度学习太表浅,没有足够的能力进行迁移

深度学习只学到表明的知识,无法学习知识本质。如DeepMind 利用深度强化学习对 Atari 游戏的研究,他们将深度学习和强化学习结合了起来。其成果表面上看起来很棒:该系统使用单个「超参数」集合(控制网络的性质,如学习率)在大量的游戏样本中达到或打败了人类专家,其中系统并没有关于具体游戏的知识,甚至连规则都不知道,它仅仅是学到了特定场景下的特定策略。这必将导致稍微修改游戏规则,深度学习就不知所措。

训练需要昂贵的资源以及时间

深度学习神经网络模型的训练需要运算力非常高的计算资源,通常需要GPU才能运行,并且训练时间很长,普通开发者甚至是小企业都无法承担该费用。

没有自然方式来处理层级架构

目前大部分深度学习方法基于语言模型来将句子表达为纯粹的词序列。然而,语言应该具有层级架构,也就是小的部件循环构建成更大的结构。(例如,在句子「the teenager who previously crossed the Atlantic set a record for flying around the world」中,主句是「the teenager set a record for flying around the world」,「who previously crossed the Atlantic」是指明青年身份的一个字句。

深度学习显现的核心问题是它学习特征集相对平滑或者说非层级的关联关系,犹如简单的、非结构化列表,每个特征都平等。层级结构(例如,句子中区分主句和从句的语法树)在这样的系统中并不是固有的,或者直接表达的,结果导致深度学习系统被迫使用各种根本不合适的代理,例如句子中单词的序列位置。

无法进行开放推理

如果你无法搞清「John promised Mary to leave」和「John promised to leave Mary」之间的区别,你就不能分清是谁离开了谁,以及接下来会发生什么。目前的机器阅读系统已经在一些任务,如 SQuAD 上取得了某种程度的成功,其中对于给定问题的答案被明确地包含在文本中,或者整合在多个句子中(被称为多级推理)或整合在背景知识的几个明确的句子中,但并没有标注特定的文本。对于人类来说,我们在阅读文本时经常可以进行广泛的推理,形成全新的、隐含的思考,例如仅仅通过对话就能确定角色的意图。

但目前来看,没有深度学习系统可以基于真实世界的知识进行开放式推理,并达到人类级别的准确性。

不够透明(不可解释)

神经网络「黑箱」的特性一直是过去几年人们讨论的重点。在目前的典型状态里,深度学习系统有数百万甚至数十亿参数,其开发者可识别形式并不是常规程序员使用的人类可识别标签,从长远看来,目前这种情况的重要性仍不明确(Lipton2016)。如果系统足够健壮且自成体系,则没有问题;如果神经网络在更大的系统中占据重要的位置,则其可调试性至关重要。

为解决透明度问题,对于深度学习在一些领域如金融或医疗诊断上的潜力是致命的,其中人类必须了解系统是如何做出决策的。

无法与已知知识相结合

深度学习的一个重要方向是解释学,就是将自身与其他潜在的、有用的知识隔离开来。深度学习的工作方式通常包含寻找一个训练数据集,与输入相关联的各个输出,通过任何精巧的架构或变体,以及数据清理和/或增强技术,随后通过学习输入和输出的关系来学会解决问题的方法。

例如 Lerer 等人(2016)提出的系统学习从塔上掉落物体的物理性质,在此之上并没有物理学的先验知识(除卷积中所隐含的内容之外)。在这里,牛顿定律并没有被编码,系统通过(在一些有限的层面上)通过原始像素级数据学习了这一定律,并近似它们。正如在我即将发表的论文中所指出的那样,深度学习研究者似乎对于先验知识有着很强的偏见,即使(如在物理上)这些先验知识是众所周知的。

与分类离得越远,与常识离得越近的问题就越不能被深度学习来解决。在近期对于常识的研究中,我和 Ernie Davis2015)开始,从一系列易于得出的推论开始进行研究,如威廉王子和他的孩子乔治王子谁更高?你可以用聚酯衬衫来做沙拉吗?如果你在胡萝卜上插一根针,是胡萝卜上有洞还是针上有洞?

这些对于人类而言非常简单的问题需要整合大量不同来源的知识,因此距离深度学习受用风格的分类还有很长一段距离。相反,这或许意味着若想要达到人类级别的灵活认知能力,我们需要与深度学习完全不同的工具。

不能从根本上区分因果关系和相关关系

如果因果关系确实不等同于相关关系,那么这两者之间的区别对深度学习而言也是一个严重的问题。粗略而言,深度学习学习的是输入特征与输出特征之间的复杂相关关系,而不是固有的因果关系表征。深度学习系统可以将人群看作是一个整体而轻松学习到身高与词汇量是相关的,但却更难表征成长与发育之间相互关联的方式(孩子在学会更多词的同时也越长越大,但这并不意味着长高会导致他们学会更多词,学会更多词也不会导致他们长高)。因果关系在其它一些用于人工智能的方法中一直是核心因素(Pearl, 2000),但也许是因为深度学习的目标并非这些难题,所以深度学习领域传统上在解决这一难题上的研究工作相对较少。

深度学习假设世界是大体稳定的,采用的方式可能是概率的

深度学习的逻辑是:在高度稳定的世界(比如规则不变的围棋)中效果很可能最佳,而在政治和经济等不断变化的领域的效果则没有那么好。就算把深度学习应用于股票预测等任务,它很有可能也会遭遇谷歌流感趋势(Google Flu Trends)那样的命运;谷歌流感趋势一开始根据搜索趋势能很好地预测流行病学数据,但却完全错过了 2013 年流感季等事件(Lazer, Kennedy, King, & Vespignani, 2014)。

以上观点参考原文(http://www.sohu.com/a/224254876_99907693)。

 

基于以上原因,深度学习要实现通用人工智能恐怕存在极大的鸿沟,而目前智视科技通用人工智能已解决上述大部分问题,智视通用人工智能技术是自主研发的原创型技术,有一下特点:

1、持续学习能力

深度学习方法学习新知识时,需要重新训练模型或者使用迁移学习,都会形成新的模型,是的学习变得困难。系统具备持续学习接受新知识的能力,而不会对之前已经学会的知识产生任何影响,大大提高学习效率。

2、理解能力

当我们在一个知识中碰到一个未曾见过的知识时,人也无法理解改知识,但是当别人告诉我们这个新知识是什么时,我们会很快的能理解改知识,如当我们遇到一句话“小明向小红表白时送了一束非常漂亮的玫瑰花,小红十动然拒”,深度学习无法理解这句话,因为它在训练时未曾见过“十动然拒”这个词,而我们的算法只需告诉它“十动然拒”是“虽然十分感动,但还是绝句”的意思,那么系统就能理解刚才那句话的意思,小红拒绝了小明的表白。

3、知识应用推理

系统可以应用多个已知的知识进行推理,比如系统先后学习了“中国的首都是北京”、“中国的首都是一座很大的城市,拥有1亿人口”,那么系统能够推出“北京的人口数量是1亿”。

4、小样本学习

系统通过抽象归纳的能力,使得我们可以用少量的数据进行学习,从而做到举一反三,例如当我们告诉他“麻雀是一种鸟”、“麻雀可以在天上飞”、“老鹰是一种鸟”,此时系统能够推出老鹰是能在天上飞的。深度学习无法实现。再比如,系统学习认识猫,我们只需少量几张不同角度的图片就能学会,而深度学习则需要上万张图片才能达到一个稍微好的效果。

5、可解释性

由于深度学习通过模型计算结果,而该模型的大量参数都是通过大量数据统计得来无法用人类理解的方式进行解释。但我们系统是具有理解、逻辑推理能力,因此每步操作都是有据可循,能够解释系统为什么这样做。这在金融、医疗等需要判定的领域是必须得。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值