机器学习是人工智能的主要领域,而机器学习领域又存在很多不同思想的学派,主要学派包括符号学派、联结学派、进化学派、贝叶斯学派、类推学派。每个学派都有其核心理念以及其关注的特定问题。每个学派都有其解决问题的解决方法,而且有体现本学派的主算法。
下面分别对五大学派进行进一步的介绍和说明。
符号学派
对于符号学派来说,所有的信息都可以简化为操作符号,就像数学家那样,为了解方程,会用其他表达式来代替本来的表达式。符号学者明白你不能从零开始学习:除了数据,你还需要一些原始的知识。他们已经弄明白,如何把先前存在的知识并入学习中,如何结合动态的知识来解决新问题。他们的主算法是逆向演绎,逆向演绎致力于弄明白,为了使演绎进展顺利,哪些知识被省略了,然后弄明白是什么让主算法变得越来越综合。
用符号学派的观点来解释我们的大脑,记忆就是我们需要的数据,但是记忆一开始并不是空白的,它有着记忆系统运行所需要的一些必须的基因,就是原始的知识。但是计算机在你给它编程之前,就是一张白纸;在用计算机做事之前,这个积极的过程需要写入记忆。我们的目标是找到最简单的、我们能编写的程序,这样写好的程序就可以无限制地通过阅读数据来自行编程,直到该程序掌握所有能掌握的知识。
但是学习并不代表着存储数据,在将其提取出来。学习是一个遗忘的过程,学习意味着将细节遗忘,只记住重要部分。而计算机就是最大的白痴专家:它们可以毫无差错地将所有东西记住,但那不是我们想让它们做的。所以这里需要设置一个很好的存储算法。
冯诺依曼曾说过一句众所周知的话:“用4个参数,我能拟合一头大象;用5个参数,我可以让它的鼻子扭动起来。”当今我们通常会学习拥有数百万参数的模型,这些参数足以让世界上的每头大象都扭动鼻子。甚至曾经有人说过,数据挖掘意味着“折磨数据,直到数据妥协。”事实也的确如此,这么多的参数,只为模拟一个很小的事情,的确想降低准确度都不容易。但是,不可否认的是,当你有过多假设,而没有足够的数据将这些假设区分开来时,过拟合问题就发生了。所有准确性还建立在数据量的基础上。
当估算这种学习算法的优劣时,你可以估算这种算法的偏差和方差。具体方法就是在掌握训练集的随机变量之后,对算法的预测进行对比。如果算法一直出错,那么问题就出在偏差上,而你需要一个更为灵活的学习算法。如果错误无模式可循,那么问题就出来方差上,而你要么尝试一种不那么灵活的学习算法,要么获取更多的数据。
符号学派的核心理念就是,所有和智力相关的工作都可以归结为对符号的操纵。数学家在解方程时,会移动符号,然后根据预先定义的规则,用其他符号来代替这些符号。逻辑学家进行推论时也是同样的道理。
联结学派
对于联结学派来说,学习就是大脑所做的事情,因此我们要做的就是对大脑进行逆向演绎。大脑通过调整神经元之间连接的强度来进行学习,关键问题是找到哪些连接导致了误差,以及如何纠正这些误差。联结学派的主算法是反向传播学习算法,该算法将系统的输出与想要的结果相比较,然后连续一层一层地改变神经元之间的连接,目的是为了使输出的东西接近想要的东西。
盲人可以借助舌头学会“看”,方法就是将头戴式摄像机的视频图像发送至舌头上的一组电极上,高电压与高像素对应,低电压与低像素对应。利用味觉皮层来完成视觉皮层本该完成的工作。神经科学的领域已经证明,**大脑自始至终只使用了一种相同的学习算法,那些负责不同知觉的区域,区别也仅仅在于与其相连、输入信息的器官(如眼睛、耳朵、鼻子)。**但这并不具有决定性,例如,小脑是比大脑更早进化的部分,负责简单的运动调节,有着非常明显且有规律的架构,由小很多的神经元构成,因此,看起来至少动作学习使用的是不同的算法。然而,如果一个人的小脑受到损伤,大脑皮层会接管它的机能。人的生物进化过程保留了小脑,但这并不意味着小脑能做大脑皮层不能做的事情,只是因为小脑更加高效。简言之,小脑与大脑的关系就像ROM和RAM,Cache和主存。
大脑的学习机制是记忆通过加强集群放电神经元之间的连接得以形成,涉及一个叫作长时程增强的生物化学过程。但是人类大脑中的连接数量是基因组中字母数量的100万余倍,因此从物理角度,基因组不可能弄明白大脑构造的细节。而联结学派的主算法就是对人脑进行逆向解析,其中最主要的就是BP神经网络。
进化学派
进化学派认为,所有形式的学习都源于自然选择。如果自然选择造就我们,那么它就可以造就一切,我们要做的,就是在计算机上对它进行模仿。进化主义解决的关键问题是学习结构:不只是像反向传播那样调整参数,它还创造大脑,用来对参数进行微调。进化学派的主算法是基因编程,和自然使有机体交配的进化那样,基因编程也对计算机程序进行配对和提升。
遗传算法时达尔文的算法,如果孤立地看待每个基因,有机体的适应度就是它所有函数的复值函数。如果基因都是相对独立的,它们变量的相对频率会快速收敛至最大适应点,然后从此保持均衡。
遗传算法的关键输入就是一个适应度函数。给定一个待定程序和某个设定的目标,适应度函数会给程序打分,反映它与目标的契合度。在机器学习中,掌握诸如适应度函数这样的事情还是很容易的。就这一点而言,遗传算法就有点像育种,但是遗传算法产出的是程序而不是活的生物体,而且一代对计算机而言不过是一瞬间的事情。
尽管遗传算法使进化学派取得了成功,但是遗传算法还有一个很大的谜团没有解开:性在进化过程中所起的作用。演化新论者非常重视交叉行为,但其他学派的成员认为没有必要如此麻烦。因为没有证据表明,交叉行为能起作用,经过一段时间,突变行为足以成倍地增加群体中最适合留下的基模的频率。
贝叶斯学派
贝叶斯学派关注的问题时不确定信性。所有掌握的知识都有不确定性,而且学习知识的过程也是一种不确定的推理形式。那么问题就变成,在不破坏信息的情况下,如何处理嘈杂、不完成甚至自相矛盾的信息。解决的办法就是运用概率推理,而主算法就是贝叶斯定理定理及其衍生定理。贝叶斯定理告诉我们,如何将新的证据并入我们的信仰中,而概率推理算法尽可能有效地做到这一点。
20世纪80年代,朱迪亚·珀尔发明了贝叶斯网络,这种方法在机器学习、人工智能一起其他许多领域迅速传播。也使其发明者获得了2012年的图灵奖。珀尔意识到,拥有一个随机变量之间复杂的依赖关系网络也可以表示地很简单,只要每个变量仅仅直接依赖于其他几个变量。朴素贝叶斯法、马尔科夫链、HMM都是贝叶斯网络的特殊例子。贝叶斯网络对于贝叶斯学派来说,就像逻辑与符号学者的关系:一种通用语,可让我们很好地对各式各样的情形进行编码,然后设计出与这些情形相一致的算法。
对于贝叶斯学派来说,学习只是另一种形式的概率推理。你需要做的就是运用贝叶斯定理,把假设当做可能的原因,把数据当作观察到的效果。
P ( 假 设 ∣ 数 据 ) = P ( 假 设 ) × P ( 数 据 ∣ 假 设 ) / P ( 数 据 ) \LARGE P(假设|数据)=P(假设)×P(数据|假设)/P(数据) P(假设∣数据)=P(假设)×P(数据∣假设)/P(数据)
类推学派
对于类推学派来说,学习的关键就是要在不同场景中认识到相似性,然后由此推导出其他的相似性。如果两个病人有相似的症状,那么也许他们患有相同的疾病。问题的关键是,如何判断两个事物的相似程度。类推学派的主算法是支持向量机,主算法找出要记忆的经历,以及弄明白如何将这些经历结合起来,用来做新的预测。
类推学派是最不具有凝聚力的一个学派,不像其他学派,类推学派更像是研究人员松散的集合体,他们的统一依靠的是对于作为学习基础的、相似性判断的信任。在机器学习中,相似性是最重要的核心思想之一。而类推学派结合了最近邻算法的高效、支持向量机的数学精密性、类比推理的力量和灵活性,产出了很有效的解决问题的方法。
如果把5个学派的观点、和主流算法整合起来,是否就可以得到我们一直在寻找的那个所谓的人工智能终极算法,我们不得而知。但是,人工智能在飞速的发展,在不断地改善着我们的生活,或许我们未来的生活,是现在的我们所无法想象的。