关键词:复杂性;生物学;进化
计算的本质是什么?为了寻找答案,一位来自外星文明的硬件工程师在21世纪造访地球。穿越大气层后,这位天外来客径直前往地球最大的数据中心之一——位于北京以西470公里的中国电信内蒙古信息园。然而在这片服务器阵列构成的微型城市中,却难以发现计算过程。面对信息园内难以计数的晶体管,这位工程师或许会误以为答案就藏在硅和金属氧化物这些计算所需的主要材料中。毕竟,自20世纪60年代以来,绝大多数计算设备都依赖这些类金属材料制成的晶体管和半导体。
若其早几十年造访地球,在金属氧化物晶体管与硅半导体尚未问世的年代,得到的答案或许截然不同。在20世纪40年代硅半导体出现之前,人们或许只将计算视为钨、钼、石英和二氧化硅等材料构成的热离子管的特性,这些材料也是电子管计算机的核心材料。
再向前追溯一个世纪,在计算机尚未诞生的年代,外星观察者可能得出更离奇的结论——当他们看到1804年提花机获得专利时,或会断定早期计算形式源于植物纤维与昆虫分泌物,这些材料一般用于制造木质织机框架、穿孔卡片和丝线,而这些模拟设备正是现代程式化计算机的前身。
但这一推论是错误的。计算并非源自硅、钨或昆虫分泌物等具体物质,而是源于理性与逻辑的运作过程。
这一虚构故事不仅关乎外星工程师的认知困境,更映射着人类探索生命本质的艰难历程。正如外星工程师难以通过材料理解计算的本质,人类在追溯生命起源时也面临类似挑战。
当下,传统生命起源理论遭到质疑,一系列新学说试图重新定义生命本质。这些理论指出生命不仅仅依赖氨基酸、DNA、蛋白质等特定物质,生命可以通过数字模拟、生物合成甚至与我们祖先进化过程中完全不同的材料创造出来。这促使研究者追问更根本性的问题:若构成生命的材料可以彻底改变(正如计算材料的演变),那什么才是生命的共性呢?是否存在使生命成为可能的更深层的自然法则?
地球似乎在宇宙中如此独一无二,在已发现的数千颗行星中,唯有地球存在生命迹象,正如卡尔·萨根(Carl Sagan)所言,地球是“茫茫宇宙黑暗中的孤独微尘”,这种独特性令研究生命起源与演变的科学家困惑:既然物理定律普适宇宙,元素周期表物质遍布星空,为何唯独地球孕育出了生命?
对于这个疑问,大部分人认可的解释是,其他星球并不具备地球这般独特的物理化学条件,只有地球拥有利于我们身上稀有化学成分产生的环境,这种特殊性在45亿年前生命诞生时达到顶点。
1970年,斯坦利·米勒在他的实验室中。照片来自加州大学圣地亚哥分校SAC 44的SIO摄影实验室藏品。
1952年,哈罗德·尤里(Harold Urey)和他的学生斯坦利·米勒(Stanley Miller)在芝加哥大学的实验为此观点提供了首项证据,他们用实验室设备模拟早期地球大气条件,以验证有机化合物(氨基酸)是否能在无机环境中再生,实验的成功证明了生命起源与特定物质条件和当时地球上的化学成分紧密关联。
基因演化本质上也是解决问题的过程:昆虫翅膀的进化解决了飞行“问题”
然而,最新研究表明,潜在的化合作用有着更多孕育生命的可能性。正如英国化学家李·克罗宁(Lee Cronin)、美国理论物理学家萨拉·沃克(Sara Walker)等学者所指出的,过度关注特定化学巧合可能会限制我们发现其他生命过程的能力。事实上,多数化学反应(无论发生在地球还是其他星球)都与生命并无关联,仅凭化学特征无法判定生命存在,因此生命起源研究者必须借助其他方法以做出准确判断。
如今,理论生物学家迈克尔·拉赫曼(Michael Lachmann)(我们在圣菲研究所的同事)指出,“适应性功能”已成为识别生命相关化学过程的首要标准。在科学领域,适应性功能指生物体通过进化解决问题的能力。比起生物学领域,“解决问题”似乎与社会、文化和技术领域的关系更为密切,比如人类学会利用洋流航行,解决了迁移到新岛屿的问题;通过学会计算角度,解决了绘制轨迹的问题;通过建造房屋,解决了住所的问题。但基因演化本质上也是解决问题的过程,昆虫翅膀解决了飞行难题,光学镜片解决了视力问题,肾脏解决了过滤血液的需求,这种源于自然选择和基因漂变的生物学问题解决机制,通常称为“适应”。新研究表明,这种机制不仅关乎生命演化,更可能是生命起源的关键。
这种视角重塑着人类对宇宙的认知:生命似乎越发不像是化学和物理过程的产物,而更像一种计算过程。
这种将生命看作一种计算过程的观念可追溯至公元前4世纪亚里士多德的质形论(hylomorphism)——功能先于形式。亚里士多德认为,视觉等能力的关键不在眼球结构,而在视力功能本身。经过两千年演变,达尔文等学者将质形论发展为适应性理论。到了19世纪,生物学家不再通过物质成分定义生物,转而关注生物如何通过适应进化解决问题。又经百年发展,巴贝奇和图灵的工作又使这一理念升华为抽象的计算概念。
20世纪30年代,图灵首次将古典希腊“功能”理念与现代计算理论结合,其思想根基可追溯至百年前巴贝奇的工作。巴贝奇区分“差分机”(Difference Engines)(遵循固定操作规则)与“分析机”(Analytical Engines)(遵循可编程的操作规则)这两种不同计算机。
这为图灵构建通用计算机模型——通用图灵机(the universal Turing Machine)奠定了基础。1936年,图灵构想的通用图灵机更像是一台录音机,由一个读写头和一条无限长的纸带构成,当这条纸带在机器中移动时,单个信息位(暂时存储在机器中)会被读取或写入,机器和纸带共同决定了下一个读取或写入的信息位。
外行人或许很难理解这些不可通约的理念是如何联系到一起的
图灵并未描述构成这种机器的具体材料,他对化学的兴趣仅限于计算机需要稳定地存储、读取和写入数据这一物理条件,这就是这台简单(尽管是无限的)可编程机器成为强大的现代计算机理论模型的原因。值得注意的是,图灵的计算理论亦可视为生命理论:计算与生命都依赖支持适应性功能的最小集合的算法,这些“算法”使物质(从构建细胞的特殊化学物质到构建现代计算机的硅半导体)具备信息处理能力。研究表明,寻找生命与探索计算本质存在深刻关联,若局限于材料、化学环境等表层因素,两项研究都可能误入歧途。
基于此,新的理论体系试图突破米勒和尤里所做实验的局限,转而通过计算原理重新诠释生命本质。过去60年间,物理学、计算机科学、天体生物学、合成生物学、进化科学、神经科学及哲学等各个领域的学者,共同探寻使得解决问题至关重要的本源,尽管研究领域看似迥异,但我们对生命起源的探索已呈现出清晰的范式转变,不过,这些跨学科思想虽具突破性,其内在关联与价值却难以为外界理解,这正是我们着手梳理整合这些新思维方式的初衷——在看似不相容的理论间(三个我们分别命名为Tron、Golem和Maupertuis的假说)搭建桥梁。
Tron假说主张生命可通过纯软件形式模拟实现,无需依赖孕育地球生命的物质条件;Golem假说则认为生命可由不同于地球进化史初始材料的其他物质合成;若这两大假说成立——即生命不局限于地球特有的化学成分,则更激进的Maupertuis假说引导我们探索复杂计算系统起源的底层物理定律。
这些假说表明,解决问题能力的涌现遵循深层法则,这些法则突破了现代物理学和化学的认知边界,标志着我们对生命的理解已发生根本性转向。
1982年,科幻电影《电子世界争霸战》(Tron)在美国上映,导演史蒂文·利斯伯吉尔(Steven Lisberger)通过这部作品描绘了生物体在计算机程序中的完美功能复现,主人公创(Tron)作为靠电路存活的类人算法,展现了不依靠生物所需化学物质也能生存的生命特征。我们的Tron假说,正是主张通过软件实现生命体的完全模拟,摆脱地球稀有化学物质的束缚,该假说发出了一个疑问:当不再依靠化学物质,生命的基本法则将如何重构?信息是否才是生命的根基?
电影首映五年后,美国计算机科学家克里斯托弗·朗顿(Christopher Langton)在人工生命研讨会上提出“人工生命”(Artificial Life/ALife)概念。对朗顿而言,人工生命研究聚焦于生命合成而非对演化生命的分析性描述,这为他突破“已知生命”、探索“可能生命”提供了方法论,用他的原话来说,其目标在于“通过替代介质重现生物现象”,用计算机软件创造类生命实体。
朗顿将计算机作为实验室工具的研究范式,可追溯至参与过曼哈顿计划的两位数学家:斯塔尼斯拉夫·乌拉姆(Stanisław Ulam)、约翰·冯·诺依曼(John von Neumann)。20世纪40年代末,二人利用早期计算机开展基于简单规则的生长模拟实验,由此发现“元胞自动机”(cellular automata)这一计算与生物生命模型。乌拉姆试图构建能像生物体般自我复制的模拟自动机,冯·诺依曼则将元胞自动机与生命起源研究联系起来。受图灵对计算研究的启发,冯·诺依曼将生命起源问题置于“构造”(construction)的抽象原则框架下——生物进化与发育(如细胞生长或个体的成长)的本质,都是复杂构造形式的具象化,在计算机上做一些复制粘贴操作就可以实现一种更简单的构造形式。二十世纪学界认为,冯·诺依曼关于“通用构造器”(universal constructor)即能自我复制的元胞自动机的洞见过于笼统,既无助于解释生命的化学起源,也难以阐释适应与自然选择等生物过程。
一个名为Avida的计算机程序模拟了进化过程
在乌拉姆、冯·诺依曼和朗顿的研究基础上,人工生命领域衍生出一系列引人入胜的形式与哲学问题,但与冯·诺依曼的研究相似,这些问题对专注生命起源的研究者影响有限且短暂。二十世纪末,包括美国哲学家马克·贝道(Mark Bedau)在内的人工生命研究先驱,在影响力重大的论文《人工生命的开放性问题》(Open Problems in Artificial Life)中对该领域进展迟滞表示惋惜。贝道等九位作者提出的未解难题包括体外合成分子原生物、人工化学环境实现生命跃迁、人工生命系统涌现智能与心智,以及评估机器对生命下一次重大进化转变的影响等。
随着这些问题的悬置,该领域逐渐式微,该论文发表后,多位作者开始研究其他领域,有的转向研究其他相近的进化理论,有的转向基于化学物质而非软件硬件的生命探索。
尽管如此,人工生命仍催生出许多复杂模型和理论。在贝道和他同事提出开放性问题的同一年,物理学家克里斯托弗·阿达米(Christoph Adami)领衔的研究组通过论文《生物复杂性的进化》(Evolution of Biological Complexity)(2000),展示了世纪之交人工生命研究的巅峰成就。他们开发的一个叫Avida的电脑程序可模拟进化过程:“在计算机内存中的复杂噪声环境中,自复制程序种群在此演化。”他们称这些程序为“数字生物”,这些由虚拟CPU指令序列构成的模拟基因组,能在数秒内通过程序指令完成进化和突变。
模拟进化过程的Avida软件的屏幕截图(来自维基百科)
Tron假说看似颇具潜力,但阿达米等人的工作最终更多有益于种群遗传学和理论生态学,而非生命起源研究。这些工作虽然弥合了计算基本定理和诸如出生、竞争、死亡等抽象生物学概念之间的鸿沟,却未能动摇前生命化学(prebiotic chemistry)对生命认知的主导地位。
近年来,随着物理学新概念的引入,传统的Tron假说也有所发展。2013年,物理学家大卫·多伊奇(David Deutsch)提出了“构造函数理论”(constructor theory),该理论提出了一种全新的物理学研究方法,将计算视为宇宙本源,其理论深度超越量子力学和广义相对论。多伊奇试图以更普适的框架革新传统物理学,在消除量子力学和统计力学中的诸多悖论的同时,为“物体空间运动”或“无生命行星向生命行星转变”等现象可能与不可能的转换建立严谨自洽的解释体系。构造函数理论不提供定量模型或变化预测,而是以定性框架探讨可能性,探讨宇宙中能发生和不能发生的事件,其解释力超越传统物理定律,该理论具有启发性,关于其实用性仍有诸多问题待探讨,其进一步发展了冯·诺依曼的构造-复制生命模型(起初的Tron假说),而该模型又是建立在图灵的计算模型之上的。通过多伊奇的理论,我们开始从Avida生物体与硅基进化等模拟原则,转向更宏大的生命形成概念框架,要理解传统物理学和化学未能充分阐释的生命深层起源,构造函数理论等类似构想或许不可或缺。
模拟生命或识别这些模拟方法的内在原理是一回事,合成生命则是另一回事。相较于用软件模拟生命,Golem假说主张用异于地球生命起源的化学成分合成生命体,该假说得名于犹太教传说中的魔像(Golem)——这种完全以无生命物质(典型如泥土)塑造、通过额间镌刻“真理”(希伯来语emét)等咒语获得生命的魔法生物,代表着与进化迥异的工程设计式的生命形式,如果说Tron假说重视信息,那么Golem假说则重视能量——这是将信息与新陈代谢机制相融合的尝试。
古斯塔夫·梅林克(Gustav Meyrink)在他的小说《泥人哥连》(1913-14)中写道:“这毫无神秘可言,真正令人恐惧的唯有魔法和巫术——生命如马尾织衬衣般令人刺痒灼痛。”于我们而言,魔像是合成生命的隐喻,它既是沃土中孕育的生命体,也是合成生物学和原始细胞可能性的抽象表征。
21世纪初,随着人工生命研究的局限性日益显现,学界越发重视对这种“泥土”的探索,尤其是与生命起源前地球迥异的物质材料与代谢机制。2005年,美国化学家史蒂文·本纳(Steven A Benner)和迈克尔·西斯莫尔(Michael Sismour)将从事生命问题研究的合成生物学家分为两类:“一类运用非天然分子复现自然生物的涌现特征,旨在创造人工生命,另一类则从自然生物学中寻找可互换组件,构建具有非自然功能的系统。”如果说后者验证的是Tron假说,前者则是对Golem假说的实证。
组装理论揭示化学生物体的构建密码
合成生物学最接近生命本质的范例,当属通过改造沃森-克里克双链碱基配对机制构建的人工遗传系统,这类研究并非在实验室创造替代生物化学体系,而是通过化学合成手段构建可进化的增强系统,事实上,迄今所有成功的合成生物学研究都源于对现有系统的增强,而非从零创造。
Golem假说带来了一些重要问题:如果生命可以用与我们所知生命起源完全不同的材料来构建,那么所有生命形式背后共同的原理又是什么呢?维系生命的化学体系具有何种共性?
新兴的组装理论(assembly theory)为我们解答这些问题提供了突破口,该理论能助我们理解化学与生物学实体的构建规律,从微观藻类到摩天大楼,宇宙中每个复杂实体都由独特分子组合构成,组装理论通过测量对象的组装指数(assembly index)——即其组件的复杂程度与装配步骤——使我们能够独立于传统生命定义来判定进化轨迹。
在此框架下,仅需统计对象构建所需的组装步骤,即可识别进化产物,无需先验模型或了解具体过程细节。该理论的三要素是:第一,对象可分解为基本构件;第二,存在构件组合的最小规则集;第三,存在描述构件组装为对象的序列,且中间产物可在后续组装中重复利用。较小的组装指数通常反映了产生晶体或行星的纯粹物理和化学动态过程,而较大的组装指数在大规模对象群中作为进化过程的证据——也是生命的标志。某种意义上,组装理论是Golem假说的另一种表达,能助我们发现进化以外的构建生命形式的过程,如魔像这类复杂实体,其组装需要大量时间、能量和信息,组装指数正是这些要素的量化标尺,该理论将计算概念映射为可识别的解题过程特征谱。
Golem假说则向我们展现了宇宙中生命物质的多样性,也提醒我们,只关注有限的几种材料或许过于狭隘。组装理论还告诉我们,不管材料如何多样,任何历史过程都会在材料上留下普遍的痕迹。
Tron假说和Golem假说都很大胆创新,但在生命起源的问题上,或许还存在更激进的观点。这些观点都表明,宇宙中复杂计算系统(即生命)的涌现,可能受更深刻法则的支配,生命或许有着比“适应”更宏观的目标。若生命并非源自突变和选择等为了适应自然的偶然事件,而是宇宙求解特定问题的尝试呢?这就是Maupertuis假说所表达的,Maupertuis假说探讨了生命在地球这种特定环境以外如何繁衍下去。那么,共同问题到底是什么呢?Maupertuis假说以热力学第二定律为基础,认为生命可能是宇宙加速实现热力学平衡的手段,换句话说,生命可能是宇宙“解决”更高效处理能量问题的手段。
该假说的名字源自18世纪法国数学家、哲学家皮埃尔·路易·莫佩尔蒂(Pierre-Louis Moreau de Maupertuis),他提出的“最小作用量原理”揭示了光和物体在时空中的运动遵循最小作用量路径。光会沿着两点之间最快的路径传播,物体运动会选择耗能最少的方式,这都表现出大自然偏好最经济的方式。所以,根据Maupertuis假说,也可类似地将生命理解为特定量的最小化或最大化,生命起源研究也可以看作是对这些量的探索。
例如,自然选择进化通过代际生存竞争,使优势基因型编码更多环境信息,这一过程既使生物最大化适应信息,又节约代谢能量,同时加速宇宙熵增,这种动态可用贝叶斯统计描述:进化群体如同采样过程,代际筛选使种群通过多轮差异生存(自然选择)更新对世界的集体“知识”。
“自由能”是对不确定性的度量:预测与结果的偏差
这种贝叶斯统计视角促使神经科学家卡尔·弗里斯顿(Karl Friston)在2005年提出“自由能原理”(free-energy principle),自由能原理与构造函数理论共同构成Maupertuis假说的理论基石,两者都试图为一切生命系统建立统一框架。自由能原理将贝叶斯统计(估计参数)和统计力学(最小化成本函数)拓展至所有生物的学习和适应过程,无论是人类还是其他生命系统。
自由能原理旨在解释这些生命系统是如何通过学习做出更准确的预测,从而最小化不确定性,对弗里斯顿来说,“自由能”是对不确定性的度量:预测与结果的偏差,偏差越大,自由能越高,只要能证明某个动态系统可最小化自由能、最小化不确定性,那它就是一个生命系统,比如,一块滚下山坡的石头在减少势能,但这肯定不是弗里斯顿意义上的自由能——因为石头不会去学习怎么更好地预测环境,但是,沿着营养梯度游动的细菌却在最小化自由能,因其从环境中提取信息来记录食物所在的位置,细菌就像一块会推理的石头。
如果我们认可通过提取信息并对环境进行推理来建模世界是生命本质的一部分,那生命就很容易出现在任何地方。就像支撑所有物理学理论的最小作用量原理一样,弗里斯顿的理论表明,最小化自由能是每种潜在生命形式都有的行为,这包括生物体、社会和技术。从这个角度看,像ChatGPT这样的机器学习模型也可以看作潜在的生命形式,因其能通过行动(比如生成文本),在训练过程中感知这些变化,并形成新的内核以最小化自由能。
根据Maupertuis假说,生命体不限于生物实体,而包括更广义上的、能通过最小化自由能实现适应性方案代际传递的机器,换言之,生命能够将信息从过去传递至未来,由此引出的核心追问是:如何界定生命边界?何谓生命个体?
2020年,新墨西哥州圣塔菲研究所的大卫·克拉考尔(David Krakauer)等人和莱比锡市马克斯·普朗克研究所团队提出的“个体信息理论”(the information theory of individuality)对此作出回应,该理论针对自由能原理等理论提出,除了我们周围看似离散的生命形式之外,还有更基本的“个体”,这些个体由随时间传递适应性信息的能力定义,我们称之为“Maupertuis粒子”,因其作用类似物理学中在场内移动的粒子——就像在引力场中移动的质量一样,此类个体无需具备生物属性,其本质在于实现适应性方案的代际传递。
生命个体:编码适应性信息的动态过程
生命依赖于复制,通过代际信息传递逐渐适应环境。传统生命起源研究强调复制机制,如细胞内的基因复制,但还存在许多其他形式的复制,细胞内的基因复制仅是化学系统对Maupertuis粒子广义信息功能的近似实现。生物学中存在着多种多样的个体:依赖宿主基因组复制的病毒、通过水平基因转移侵蚀细胞信息边界的微生物垫、由不育工蜂供养蜂后的真社会性昆虫。根据个体信息理论,个体的化学基础可以是不同的,生命本质由适应性信息定义。Maupertuis假说为生命形态与个体层级开辟了新可能。
那么,我们如何找到这些个体呢?根据个体信息理论,生命个体是编码适应性信息的动态过程。要探测此类个体,可以想想我们是如何通过不同光波长来探测宇宙中的各种物体的,许多生命特征比如代谢活动中的热信号,只有在长波长下才可见,而其他特征比如碳通量则显现于低波长下。同样地,个体可通过不同的“信息频率”(informational frequencies)探测到,每种生命形式都拥有不同频谱,都在空间(更强的适应性)和时间(更持久的遗传性)上越来越强相关,同一化学过程中,多个不同个体可用不同信息过滤器识别,以多细胞生物即人类举例,远距离看(用粗粒度过滤器),人类是一个统一的整体,而近看(用细粒度过滤器)则充满了相对独立的组织、细胞和蛋白质,可见,存在多层次的个体性。
那么,这些繁衍生息的个体的共同目标是什么?无数个体消耗代谢能量确保信息传播的过程中,也加速了环境熵增进程。通过共享适应性信息,每个个体都在间接推动宇宙热寂,生命在局部解题的同时,也在制造全局性问题。
这是否意味着生命的本质在于解决问题?理解生命起源需明确:宇宙中绝大多数化学反应与生命无关,单纯靠化学不足以界定生命,相反,研究人员需以适应性功能(解决问题的能力)作为核心判据。如果生命的本质在于解决问题,那我们的起源并不受限于罕见的化学条件,而是信息与计算的普遍法则的结果,由此推演,生命在宇宙中的出现可能远比我们之前想象的频繁——其驱动力或可追溯至138亿年前的宇宙大爆炸。
宇宙起源和演化的物理叙事是纯机械过程,例如大爆炸、轻元素的形成、星系凝聚、重元素的形成,这套叙事不包含目的性,但孕育生命的物理学和化学显然超越了基础定律的被动遵循,在某个历史节点,物质开始具有目的性,能够自我调节以适应环境,宇宙从巴贝奇式的差分机进化成图灵式的分析机,这就是生命起源的门槛。
在无生命的宇宙中,万有引力等物理定律如“计算”,能通过基本的输入输出操作在任何时间、空间进行下去,而生物体却能修改生命法则或自我“编程”以解决各自独特的生物问题,从而适应环境。这就是为什么,如果无生命的宇宙是一台差分机,那生命就是一台分析机,这一转变标志着物质开始由计算和解决问题来定义,当然,特殊的化学条件是必需的,但真正的革命不在于物质本身,而在于逻辑。
在那一刻,宇宙史上首次出现了能与大爆炸相提并论的大问题,为了解决这个大问题,即物质如何适应看似无限多样的环境,过去百年间涌现许多测量、发现、定义和合成生命的新理论与抽象模型,有研究者在硅基系统中合成生命,有团队探索新型物质形态,更有学者发现可能使生命如物理定律般必然存在的新法则。
何种路径能引领我们超越地球生命史?答案仍在星辰深处。