与师生谈人工智能7：深度学习的短板

最新推荐文章于 2024-09-24 09:40:31 发布

人机与认知实验室

最新推荐文章于 2024-09-24 09:40:31 发布

阅读量518

点赞数

文章标签：人工智能机器学习大数据 ai deep learning

李晓榕教授指出深度学习虽在特定任务上有出色表现，但缺乏抽象学习和理解力，不具备人类智能的通用性。深度学习依赖大数据训练，对数据库要求高，难以应对新颖任务和抽象问题。此外，它在处理不确定性、动态性和社会属性方面存在不足。未来，人工智能的发展可能需要生物与机器的结合，并注重道德和智慧的提升。

摘要由CSDN通过智能技术生成

学：学生，教：教师，李：李晓榕

李：在谈科研方法时，我一再强调，在涨潮时，要特别认真地思考其利弊，尤其是短板和局限。深度学习当前正热得发烫，所以要好好考虑其不足之处。它确实有不少长处，随处可见有关论述，这儿就免了。

在完成不少特定任务上，智障者经过相应的强化培训也能胜过普通人。大数据深度学习就是针对任务的强化培训，其产物就像一个强化培训后的智障者。正因其智障，才需要海量强化培训。“培训”强调有针对性的特定技能的获取或增强。而人的“学习”所得不限于特技，还可以含有通用性的心智开拓。它至少包括：①通过事例的（启发式）经验“具象”学习，②通过语言、符号和概念等途径的抽象学习。其他物种没这第二条腿，无法飞奔，缺乏智能。人的智能离不开抽象能力，它使人能超脱无穷无尽的具体细节海洋而汲取其精华，浓缩概括其要义，还能直接思考和处理抽象事物。语言、文字、概念等抽象的信息表达方式都建基于清醒的意识上，其产生和接受都离不开意识，所以大概先要有足够清醒的意识，才会抽象学习。

“深度学习”其实是“大数据培训”，即通过海量丰富的经验事例（即大数据）来强化培训深层人工神经网络。这种网络往往远比不少缺乏意识、智能不足的动物的神经网络还简单。它能通过量化事例来培训，却不会真归纳，不会抽象学习，也难以向其他程序学习，更无法直接应对抽象之物。这恐怕是因为它缺乏意识，而意识的存在大概是抽象学习的前提。正因不会抽象学习，这才需要丰富海量的经验事例，而不能靠事例的抽象概括来学习。它只有第一条腿而难以飞奔、成就真“智”。它没有抽象学习那条腿，就连事例学习这条腿也不强壮，因为它缺乏归纳概括能力而无法飞跃升华。人在童年就开始会归纳概括，会抽象学习，这应该是真智必需的。深度学习网络高层的分布式表示，至多只能被认为是归纳概括和抽象的滥觞或胎儿，离真正的归纳概括抽象还很远。基于贝叶斯概率框架的Solomonoff归纳推断理论业已表明，完备的归纳是不可计算的，是超越算法的；可计算性与完备性无法共存。可见，一切算法、包括深度学习算法，都不可能会这样的归纳，因而难以相信会是产生智能的“魔杖”。所以，不该头脑发热。

教：您说的“能而不智”，我也有些朦胧的类似感受，但是又理不清道不明，所以您所说的，很有启发性。不过，您上面的一个主要观点是，没有对智能原理的认识，人工智能就不会有突破。但是在历史上，有些突破是首先在技术上完成的，只是后来才在原理上认识清楚。比如说，我们至今未能完全搞清鸟类的飞行原理，但是已经比它飞得更高更远更快了。而且，在计算机领域，技术领先于理论，好像都可以说是一个传统了。

李：人造飞行器的确比鸟飞得更高更远更快了，但远不如鸟更高效灵巧、无声环保。我并没说，缺乏对智能机理的认识，人工智能研究就无法突破，而是说：在这种条件下，认定“既能又智”的人工智能即将来临，而深度学习就是这种意义深远的大突破，根据不足，似嫌天真。

尽管对局部特征有所借鉴，例如卷积网络受到初级视觉皮层工作机制的启发，总体上深度学习网络在智能机理方面的支持远远不够。比如，其中关键的反向传播的权值修正算法并无神经生理学依据，它也只用于学习，学成后的网络并无真正的反馈机制。而对人类智能至关重要、大脑进化的最新产品——新皮层——充满了反馈，反馈连接往往并不少于（常常多于）前馈连接，甚至可以说反馈网络是主导，新皮层与丘脑的反馈连接也比前馈大好几倍。人脑中有注意系统，它有序列方式（串行处理）的本性，能操控低层的并行处理，还有不同部分之间的同步机制。人脑的神经网络远比深度学习的多隐层人工神经网络复杂，它一般并没有明确严格的功能层级结构，比如各脑区之间有双向连接和回路，形成圈环。作为神经系统结构和功能的统一基本单元，人脑神经细胞（即神经元）也比人工神经元复杂得多：它的轴突、树突和突触都存在必要的时延和变化，单单在突触的调节这一环节上就有各种神经递质、受体和调质间的复杂相互作用以及其间海量的组合多样性和灵活性。而（狭义）深度学习网络甚至连记忆都没有。就连两次拯救了人工神经网络研究的深度学习之父辛顿（Geoffrey Hinton）也相信，“正是这些不像大脑的东西，导致了人工神经网络的效果不够好”。人脑极其神奇，长期大力研究后，我们仍然知之有限，特别是对观念意识的形成机制等，以致有些专家甚至认为靠人脑无法破解人脑之迷，正像任何一个逻辑系统都无法全面描述自身，包括自证自洽。

教：是啊，也许靠人脑真的无法破解人脑之迷，就像一个人不能把自己拎起来一样。

李：但一个人通过器械却可以拎起自己。人要想理解人脑，也可以利用其他手段。

学：所以拎起自己这个类比不恰当。

教：那倒未必。要坚持这个类比，就可以说：理解靠智力，而要理解人脑，人没有其他智力可用，所以，靠人脑破解人脑之迷，就像靠自己拎起自己一样。

李：对此不妨说：可以利用古往今来全人类的总智慧，而不是一人之脑，来破解人脑之迷。人脑之谜不同于全人类的集体智慧（和精神生活）之谜。我觉得，人类大概始终无法完全破解后者。人类智慧有赖于经验、知识等积累，有赖于人类物种的历史，因而不具有马尔可夫性（即无记忆性）。很难相信它能被一个算法（即可计算函数）所把握。

说回深度学习与人脑的关系，就连深度学习的牛人也坦承：“如今神经科学在深度学习研究中的作用被削弱，主要原因是我们根本没有足够的关于大脑的信息来作为指导去使用它。……我们甚至连大脑最简单、最深入研究的部分都还远远没有理解。……真实的神经元计算着与现代整流线性单元非常不同的函数。”（Goodfellow, Bengio, and Courville《深度学习》）杨立坤坦诚：深度学习网络“的工作原理和真正的生物大脑有天壤之别”。

学：但是有些人把深度学习吹得天花乱坠，甚至说它是一种机器智能，突破了人类智能，是另一种形式。

教：也有人在理论上把它贬得一钱不值。

李：其实，越是吹得天花乱坠，越会使人失望，从而伤害它；分析评判越中肯，越会延长其生命。深度学习网络有专能，无通能，缺乏理解力。专能无需深刻理解，而通能有赖于透彻领悟。理解与智能大有共通部分。只有透彻领悟，穷神知化，才能以一知万，通权达变，胜任五花八门的任务。

迄今深度学习网络成功的关键在于：针对明确的任务，构建相应的网络结构，利用相关的大数据做相应的培训。要夸它，就说这是“有的放矢、心无旁骛”；要贬它，就说这是典型的“只会单打一，不开窍”。它既没有通用的网络结构，更不可能存在通用的培训数据，就连培训方法的通用性也不足。如果事先不知道要完成什么样的任务，就无法做相应的构建和培训、利用相关的数据，也就无法得到培训好的网络用以完成任务。有一种观点强调（但我不尽同意）：学得快、完成新颖认知任务的能力最能体现智能。按此，则专能再强的深度学习网络也几乎没有智能，因为离开了大数据培训，它对新颖任务束手无策。

即使事先知道要完成两个不相似的任务A和B，深度学习网络也难以完成。A和B一般有不同的输入输出模式和种类，以及不同的评估方式和指标。记深度学习网络为N，分别针对A和B的为N_A和N_B，既可完成A也可完成B的为N_AB。如何培训N以获得N_AB？显然不能先针对A来培训N使之成为N_A，再针对B来培训N_A使之成为N_B|A（即N→N_A→N_B|A），或先B后A（即N→N_B→N_A|B），因为N_B|A和N_A|B都与N_AB大大不同，都无法既做好A又做好B。也不能同时针对A和B来培训。一种做法是让N_AB = N_A∪B，即输入和输出都用A和B的并A∪B。这有大问题，它其实在完成第三个任务C = A∪B，因而至少有如下缺陷：①在一个具体场景下它要靠指导才知道是该完成A还是该完成B，无法像智能者那样能自主判定。②网络规模太大，它随着所需完成任务的增多而猛增，而通能可胜任种类繁多、数量巨大的任务。③因为存在多余部分的干扰，N_A∪B完成任务A的效果不如N_A，完成任务B的效果也不如N_B。另一种更差的做法是让N_AB = N_A∪N_B，即视A和B为两个独立的任务，但它也至少有上述三大问题。

谈人工智能8：深度学习对老牌AI 精选

学：学生，教：教师，李：李晓榕

李：三代人工智能都各有所本、各有所倚，也就各有所偏：第一代有赖于对机理规则的认识，第二代基于相关的专家知识库，以深度学习为代表的第三代依赖于相关实例的大数据库。前两代现在被称为“老牌AI”（Good Old-Fashioned AI），它们分别由原理和知识驱动，学界已相当了解其实用的难度和局限，兹不赘述。数据驱动的第三代难以克服根植于所用数据库的任何缺陷和局限。数据不够、不好、不全、有误或与当前任务失配，学习效果自然也就不会好。例如，用于训练或评价的数据缺乏针对性（对当前情况的独特性体现不够），过于陈旧（不再符合当前情况），体量不够大或种类不够丰富，有统计偏差（某些类数据太多或太少），过于宽泛笼统，不够全面完备，代表性不足，有死角、误导性或定性错误，等等。它还难以应对发生概率微乎其微的灾难性黑天鹅事件¹：若学习中从未遇到这类事件，则不知如何应对（特斯拉自动驾驶车辆的几次致命事故都根植于此）；而本不该发生的这类事件一旦发生，领教过其灾难性后果后，往往又会考虑过甚，反应过度（一朝经蛇咬，十年怕井绳）。这些都是数据驱动方法的固有软肋。可见，即便只专做一事，深度学习网络对数据库的要求也还是可能太高而不现实，更别说想要有通能。退一步说，纵然它原则上适用于通能，因任务五花八门，培训所需的合格数据库也会奇大无比，不现实。

学：什么叫“数据有死角”？李老师能不能解释一下？

李：以自动驾驶的深度学习网络为例。其输入主要是环境感知以及自身定位和运动状态的信息，但因成本所限，车上所装传感器有限，未必能足够可靠及时地采集到全方位足够的有用信息。这就是一种“数据死角”。特斯拉自动驾驶车辆的有些事故就根植于此。

另一方面，老牌AI专注于模仿人类智能的上层宏观抽象功能。与此迥异，深度学习网络受到人脑在信息处理下层微观具体结构方面的启示，其网络结构和参数是靠事例数据来训练确定的，其计算输出的自然形式是连续型的，而不是离散型或逻辑型的。这与涉及不确定性的问题的认知和决策等任务比较匹配，但它本身难以产生确定无疑的必然结果，与逻辑演算、推理演绎等要求绝对纯净、完全精确的抽象工作不很匹配，也难以胜任发现严格规律（比如机器证明）、构建逻辑规则、创立精确概念、更新人类知识、生发深层理解、提供新颖见解等逻辑层面或其他高层工作。这些都是深度学习这类统计数据训练方法的短板，但可以靠与其他方法结合来弥补。简言之，“面向机理或知识”的老牌AI更适用于基于书本智慧（book smart）追求精确“整洁”的抽象问题之解和硬规则硬约束，它难以对付矛盾的情况，其进步更依赖于通用机理等内部本质。而“面向任务”的深度学习网络更适用于基于市井智慧（street smart）、具有不确定性、本质“邋遢”或近似的具体问题和软规则软约束，它更着眼于、偏重于实用效果等外部表现，自然也就应用硕果累累，而理论成就寥寥。

学：为什么说深度学习网络与逻辑演算推理等要求完全精确的抽象工作不很匹配？

李：一个连线权重待定的人工神经网络（ANN）就是一个参数待定的函数，数据培训就是从中选取最合适者来拟合数据，其结果是一个权重确定的ANN，即一个参数确定的函数。ANN的万能近似定理说，前馈单隐层或深层ANN所构成的集合在连续函数集合中是稠密的，即：对于任一连续函数，都存在这种ANN能以任意精度近似它。这是ANN方法在功力上的主要理论支持。但是，逻辑演算、推理演绎等完全精确的抽象工作对应的函数并不连续，因而ANN对它的近似精度似乎缺乏完全的理论保障。特别地，深度学习是通过事例培训完成的，因其基于数据的概率统计本质，必受误差、噪声等各种不确定因素的影响，难以与精确工作匹配。形象地说，这种方法所得的拟合曲面不会像精确工作所对应的曲面那样“简洁干净”。

现代的黄金标准是科学化、数学化、抽象化。随着现代化和现代科技，包括人工智能技术的日益强大和深入人类活动，人的思维、行为和社会也随之日益机器化、程式化、规则化、精确化和标准化。因此，信息简化、算法思维、逻辑验算等体现科技特色的方面日渐普及，“只可意会，无法言传”的常识和直觉的地位江河日下，人文修养、伦理道德、精神生活的领域日渐缩小。这是现代人异化、机器化的一大趋势，逐渐造成了上述这两方面本该平衡的日趋严重失衡。老牌AI的发展无疑强化着这个趋势，而近年来勃兴的以深度学习为代表的基于统计数据培训的技术在精神实质上倒并非如此。

老牌AI大都对应着表达明确简洁的外显知识，而由于缺乏归纳和抽象等能力，ANN靠监督学习或（强化学习等）非监督学习，所得知识更像无法简洁明确表达的默会知识或内隐知识（比如弹钢琴的本事）。西方知识观历来重外显、轻内隐。深度学习的大获成功，让这种“非简洁外显知识”扬眉吐气。不过，深度学习网络往往“能做而不会表达，也不善于规划”，而一般认为善于规划是高智能的起码要求。老牌AI难以对付软问题。对于硬问题，ANN难以无指导地自主得到精确解，但随着规模的增大可能逼近精确解。对此，一个辩护是：所谓硬问题的精确解原本就是假想情况下假想问题的理想解，而非实际情形下实际问题的实际解。在深度学习网络中，分布式表示的概念都是模糊的“概念云”，而非边界清晰的“概念子”，这与大多数实际情况比较相近。

前面说过，西方文化传统更依赖于“粒子、元素、单位、定位、精确”等观念，中国文化传统更依赖于“场、波、气、云、关系、网络、模糊”等观念。由此看来，相对而言，老牌AI更具西方特色，深度学习网络更具东方特色。ANN的分布式表示更偏向于中国式、关系式的表示，其中概念和概括的产生、相关、变化、分化等都更灵活，不像定位表示那么死板难解。这也与上述趋势相符。

人工智能研究迄今三代全都专注于智能的生理或行为基础方面，而忽视智能的社会属性。而正是人的社会属性需求产生了语言、自我表达和自我意识，人类智能所依赖的语言、文字、知识、经验乃至意识等都是在社会生活中产生和发展的，都带有文化的烙印。社会性是人区别于其他动物的一大鲜明标志，对人类智能的构成有重大意义。狼孩的例子足以说明社会性的重要。还有，包括深度学习在内，人工智能研究大都不够重视智能的动态性、时变性，即时间维度，它们更适用于静态问题。

再者，深度学习因其数据驱动的本质，相应的研发缺乏理论指导，像靠试错法配方来炼“智能仙丹”。这类通用的东西，往往有个强大普适的框架，但面对特定问题缺乏理论指导，没有比较系统的应对方法，致使研发者成为“炼丹师”。

学：听了李老师这么说，还是不知道人工智能到底是不是个大有作为的专业。

李：如果你感兴趣的是“既能又智”的真正智能，那要小心不被忽悠上当。如果你感兴趣的是“专能”，那人工智能（像不少其他专业一样）是不错的专业。纵然如此，也要做好充分的思想准备。近期内，人工智能的研究以应用大数据深度学习来解决具体问题为主。绝大多数这类研究（尤其是科研新手的工作）缺乏创意而枯燥乏味，包括标定大量数据，靠“试错法”配方来调参的“炼丹”，测试各种方案的结果好坏，等等。这样的工作会极大消耗你的热情和冲动。真正针对基本方法的研究，在其中想必是凤毛麟角。

总之，我认为，以往的人工智能只是“有小技而欠能不智”，当前以大数据深度学习为代表的人工智能大概是“有专能而欠智”，我相信它无法达到、更遑论在近期内达到“既能又智”，我甚至难以相信非生物的无机机器能达到“既能又智”。要在未来达到“既能又智”、最终超越人类智能，得靠经人类改造后的生命与机器的有机结合，而这种研究应有前提：先期或同步提升道德修为，既智慧卓绝又道德高尚。

______________________________

1. 李世石在与阿尔法狗人机大战第四局的白78手，就是一起黑天鹅事件。阿尔法狗未考虑这一被判定为万分之一概率的“神来之笔”，从而满盘皆输。它也无法考虑概率如此小的事件，否则来不及计算。一般而言，复杂系统的反应无法预测，且有远离绝大多数情形的灾难性黑天鹅事件。如果训练数据中没有相近的事例，深度学习的产品可能会大冒傻气，为了完成任务而犯傻闯祸，做未被明确禁止的傻事祸事。比如：为了最大化主人新书的销售而雇杀手暗杀主人以引起轰动效应（参见Dan Brown的科幻小说 Origin）；为了看清煤气室中的东西而点燃蜡烛；要让车内的朋友下车而又不慎把车钥匙锁在车内时，求助于开锁服务。

本文来自李晓榕科学网博客。
链接地址：http://blog.sciencenet.cn/blog-687793-1299794.html