模块化机器学习：新一代大型语言模型不可或缺的路径-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/147620183

王鑫，IEEE 会员，李浩洋，张泽阳，陈海波和朱文武，IEEE Fellow

摘要

大型语言模型（LLMs）在包括自然语言处理、计算机视觉、数据挖掘等在内的机器学习研究中取得了显著进展，但它们在推理、事实一致性以及可解释性方面仍存在关键局限性。本文介绍了模块化机器学习（MML）这一新的学习范式，作为通往新一代LLMs的重要途径。MML将LLMs的复杂结构分解为三个相互依赖的组件：模块化表示、模块化模型和模块化推理，旨在增强LLMs的反事实推理能力、减轻幻觉现象，并促进公平性、安全性和透明性。具体而言，所提出的MML范式可以：i）通过语义成分的解耦来阐明LLMs的内部工作机制；ii）允许灵活且适应任务需求的模型设计；iii）实现可解释且基于逻辑的决策过程。我们通过利用解耦表示学习、神经架构搜索和神经符号学习等先进技术，展示了基于MML的LLMs的可行实现方式。我们批判性地指出了关键挑战，如连续神经过程与离散符号过程的集成、联合优化和计算可扩展性，并提出了值得进一步探索的有前途的未来研究方向。最终，MML范式与LLMs的结合有望弥合统计（深度）学习与形式（逻辑）推理之间的差距，从而为在广泛的实际应用中实现稳健、适应性强且可信的人工智能系统铺平道路。

索引术语——大型语言模型，神经符号学习，解耦表示学习，神经架构搜索。

1 引言

大规模语言模型（LLMs）[1] 的出现，以ChatGPT为代表，无疑是人工智能领域发展的一个分水岭时刻。这些模型以其看似超人类的语言处理能力令研究界和公众都感到惊叹。在众多任务中，它们成功地模仿了人类水平的语言理解和生成能力。从撰写优美的文章、进行流畅的对话到提供复杂文本的详细摘要，LLMs在各种场景中证明了自己的能力。这种卓越的表现促使一些研究人员倡导“越大越好”的原则。其背后的逻辑是，随着模型规模和训练数据量的指数级增长（即缩放定律），LLMs能够封装的知识广度和深度也随之增加。这使得模型能够以前所未有的准确性和流畅性处理广泛的与语言相关的挑战。

然而，像任何技术奇迹一样，LLMs也有其致命弱点。当涉及到定量推理任务时，LLMs的一个主要局限性就显现出来。例如，LLMs往往在简单的两位数算术问题上遇到困难。在没有人类互动的情况下，它们难以应用基本的数学原理来获得正确答案。这种缺陷表明，尽管它们具有卓越的语言能力，但在需要正式和基于规则理解的认知和逻辑推理能力方面仍然需要大幅度提升。因此，研究界已经观察到一种日益增长的趋势，即通过附加工具来增强LLMs，这些工具旨在弥补推理能力上的不足。例如，将一个LLM与一个符号求解器相结合，可以增强LLM处理数学和逻辑问题的能力。通过整合外部知识库，LLMs可以获得原始训练数据中可能不包含的特定领域信息，从而增强其适应性问题解决能力。这种混合系统有可能释放LLMs的全部潜力，使它们能够克服当前的局限性，在广泛的人工智能应用中变得更加多才多艺和可靠。

LLMs在实际应用中应具备可解释性、可靠性、适应性和可扩展性。例如，在医疗保健、金融和法律系统等许多关键领域，LLMs所做的决策可能会产生深远的影响。当模型提供诊断或财务建议时，患者和利益相关者需要了解其背后的理由。如果没有可解释性，就很难验证输出的准确性和可靠性。在医疗背景下，如果LLM建议了一个特定的治疗计划，医生和患者必须清楚地理解该建议背后的推理。这不仅
促进了信任，还能够检测和纠正错误。此外，随着应用需求的演变和新任务的出现，LLMs需要通过逐步纳入新知识、领域和功能来适应未知场景。在技术快速发展的世界中，静态的LLM会迅速变得过时和落后。此外，随着新的科学发现的出现，一个可扩展的LLM应该能够融入这些进步，以增强其能力。

在本文中，我们提出了一种新的学习范式，即模块化机器学习（MML），它包括i）模块化表示，ii）模块化模型和iii）模块化推理，为深度学习架构如LLMs提供了实现上述关键特征所需的可行路径。为了便于理解，我们利用视觉问答（VQA）任务作为示例，说明图1中MML对LLMs的过程。为了进一步验证该方法，在图2中我们提供了一个基于VQA任务的MML可行实现方式。1）用于模块化表示的解耦表示学习（DRL）允许在LLMs内形成更有组织和可解释的信息结构。通过将复杂的表示解耦为独立的语义维度，更容易理解并控制模型的内部工作过程，从而增强可解释性。2）用于模块化模型的神经架构搜索（NAS）能够创建具有负责不同功能的各种模块的模块化神经架构。不同的模块可以根据特定任务进行优化，使整体LLM能够通过不同先决任务的自适应组合可靠地完成复杂任务。模块化的架构还便于在不同模块内维护和更新参数，有助于轻松扩展与新功能相关的模块。3）用于模块化推理的神经符号学习（NSL）弥合了黑箱神经网络推理过程与人类可理解的符号推理之间的差距。模块化设计形式化推理步骤，提高了可解释性和可靠性，因为决策过程变得更加透明和可审计，同时通过启用推理链中潜在偏差的检测和纠正，促进公平性。因此，模块化机器学习有潜力将LLMs转变为更强大、更可信和更多才多艺的实际应用工具。关于实施的更多讨论将在第4节呈现。

我们将首先在第2节介绍MML的方法论，然后在第3节讨论MML对LLMs的重要性，接着在第4节详细描述MML的可行实现方式。此外，我们还将在第5节探讨未来方向。总之，我们旨在提供对当前机器学习技术潜力和局限性的全面理解，希望本文中的见解能够推动人工通用智能（AGI）的发展。

2 模块化机器学习（MML）的方法论

模块化机器学习（MML）是一种学习范式，它将大型语言模型（LLMs）的复杂结构分解为三个相互依赖的组成部分：模块化表示、模块化模型和模块化推理。这种分解使得LLMs在各种应用中具有更好的推理、可解释性和适应性。

2.1 数学定义

设 $\mathcal{X}$ 为输入空间， $\mathcal{Y}$ 为输出空间。一个模块化机器学习模型 $M$ 可以定义为三个模块函数的组合：

$\mathcal{M}(x)=\mathcal{M}_{\theta_{R}}\left(\mathcal{M}_{\theta_{M}}\left(\mathcal{M}_{\theta_{D}}(x)\right)\right)$

其中：

$\mathcal{M}_{\theta_{D}}$ : 模块化表示函数，从输入 $\in \mathcal{X}$ 中提取解耦且语义上有意义的特征。
- $\mathcal{M}_{\theta_{M}}$ : 模块化模型函数，根据输入特征动态调整模型架构。
- $\mathcal{M}_{\theta_{R}}$ : 模块化推理函数，对模块化模型获得的结构化表示应用符号推理。

2.2 优化目标

MML的训练目标可以表述为：

$\min _{\theta_{D}, \theta_{M}, \theta_{R}} \mathcal{L}(M(x), y)$

其中 $\theta_{D}, \theta_{M}$ , 和 $\theta_{R}$ 分别代表模块化表示、模块化模型和模块化推理函数的参数， $\mathcal{L}$ 表示任务的损失函数。这一正式定义强调了MML如何将模块化表示、模块化模型和模块化推理集成到一个统一框架中，使LLMs能够以增强的灵活性和可解释性执行复杂推理。

3 MML对LLMs的关键意义

实现反事实推理。当前LLMs最深刻的局限之一是它们无法有效地推理反事实[2]。反事实推理涉及探索与观察现实不同的假设情景，以回答“如果…会怎样？”的问题。例如，在医学领域，反事实推理可能探索假设患者接受不同治疗的结果。虽然LLMs在基于大数据集中的模式预测文本方面表现出色，但它们的统计基础使它们不适合需要逻辑一致性和因果推理的任务。MML通过集成能够进行反事实推理的模块化推理系统填补了这一空白。这些系统依赖于明确定义的规则或因果图来建模变量之间的关系，从而生成关于未观察情景的逻辑连贯假设。通过非平凡地将这些模块集成到LLMs中，可以增强LLMs处理需要稳健逻辑推理任务的能力[3]。

图1：我们采用视觉问答（VQA）任务比较传统的LLMs与我们提出的模块化机器学习（MML）框架对于LLMs。当前LLMs（例如，ChatGPT-4o）通常在需要复杂推理的任务上失败。MML通过采用模块化方法克服这一弱点，如下所示，步骤（1）：模块化表示首先解耦视觉内容，根据文本问题（例如，识别目标对象 $\mathbf{X}$ ，实心圆和空心圆）从图像中分离和提取关键特征；步骤（2）：模块化模型然后利用定制的神经架构针对不同功能分析对象的序列位置模式（例如，跟踪相关对象 $\mathbf{X}$ ，实心圆和空心圆的序列位置）；步骤（3）：模块化推理最后进行逻辑推理以推断下一个模式并总结答案（例如，预测问号内的 $\mathbf{X}$ ，实心圆和空心圆的位置）。

这种集成可以采取多种形式。一种方法是使用神经模块作为感知引擎，将复杂、高维的数据解析和预处理为与模块化系统兼容的结构化表示。这些模块化系统随后根据明确定义的逻辑或因果原则操纵这些结构化表示来进行反事实推理。例如，在政策决策制定中，一个增强的MML LLM可以分析历史数据，以在不同政策情景下提出替代结果，提供对潜在因果机制的可解释见解。除了应用外，基于MML的框架可以通过将感知与推理分离提供架构优势。这种模块化设计确保推理层独立于神经网络固有的统计偏差运行。例如，虽然神经网络可能会过度拟合训练数据中的相关性，但基于MML的模块能够施加与已知因果关系一致的约束，降低生成虚假反事实的风险。因此，MML可以作为LLMs内反事实推理的基础[4]。

进行基于规则的推理。LLMs的主要挑战之一是它们依赖于概率文本生成，这可能导致事实不正确的输出[5]。MML通过引入结构化的基于规则的推理机制增强了LLMs，确保事实一致性。MML框架内的模块可以从LLM生成的内容中提取规则，并将其与外部知识库、本体或预定义约束进行验证。例如，在医疗领域，LLM可以从科学文献中综合临床指南，而集成的模块化推理模块可以交叉检查这些建议是否与结构化知识一致，识别不一致或不准确之处。这种方法增强了LLM输出的可靠性，使其适用于精度至关重要的高风险应用。

此外，通过不断更新其规则库，MML确保LLMs保持与最新领域知识的同步，从而减少过时或偏见建议的风险。

统一感知和推理。MML和LLM集成到一个统一框架中，弥合了感知和推理之间的差距，提供了一个可扩展和适应性强的人工智能范式。通过利用MML的模块化性质，这个统一系统可以高效处理复杂的多模态数据，将LLM驱动的感知与模块化推理相结合，实现全面的决策。这种方法的一个关键好处在于其灵活性。虽然LLMs可以针对特定领域的应用进行微调，但MML的模块化设计确保不同的推理模块可以独立更新。例如，在一个自主系统中，感知模块（LLM）可以处理传感器数据和自然语言命令，而推理模块（MML）则确保遵守预定义的安全约束。这种分离增强了系统的鲁棒性，并减少了适应新任务时进行大量再训练的需求。

消除幻觉。LLMs的一个关键挑战是幻觉现象——生成看似合理但事实不正确或不一致的信息[6]。幻觉源于LLMs的概率性质，它们被训练来优化似然函数而非确保事实正确性。这一局限性在医疗保健、法律系统、科学研究等领域带来重大风险。MML通过引入模块化学习和推理模块来强制事实性，提供了一种变革性解决方案。这些模块作为逻辑评估器，将LLM输出与结构化知识库、本体或预定义规则进行交叉引用。例如，在医疗诊断应用中，模块化系统可以验证LLM生成的治疗建议是否符合既定的临床指南，

图2：我们提出的MML（模块化表示、模块化模型和模块化推理）的一般框架及其可行实现（解耦表示学习、神经架构搜索和神经符号学习）解决实际任务。为了与图1保持一致，我们再次以视觉问答（VQA）任务为例说明MML的实例化。我们利用VQA示例展示MML如何将输入解耦为模块化组件，通过解耦表示学习、神经架构搜索和神经符号学习的顺序组合进行处理。具体而言，解耦表示学习组件负责从输入数据中提取一组解耦特征，随后输入到神经架构搜索组件。神经架构搜索组件然后识别出最佳捕捉解耦表示的架构。之后，神经符号学习组件通过结构化、逻辑驱动的推理进一步细化输出。在VQA示例中，包含一棵树、一匹马和一只羊的输入图像由MML处理，提取出表示背景、位置和颜色等的解耦表示。基于这些解耦表示，MML发现最优神经架构以执行各种任务，包括物体检测、位置判断、距离比较和颜色识别。最后，神经符号学习以逻辑推理的方式整合输出，回答问题：“树旁边的最近生物是什么颜色？”答案“棕色”正确识别了最近的生物（羊）及其颜色，使用符号逻辑建立实体之间的关系。此外，我们在图底部正式展示了联合优化过程，涉及三个模块的同步优化：解耦表示学习、神经架构搜索和神经符号学习。目标函数旨在通过协调端到端学习过程最小化损失 $\mathcal{L}(X, Z, A, Y)$ 。具体而言，每个模块的最优参数 $\left(\theta_{D}, \theta_{M}, \theta_{R}\right)$ 通过联合最小化各自损失函数确定：首先优化神经符号学习组件，其次是神经架构搜索组件，最后是解耦表示学习组件。这一联合优化框架实现了不同模块组件的无缝集成，达成更高效和有效的学习过程，可适应多样任务。
标记任何不一致之处。此外，MML可以通过模块化后处理实现LLM输出的迭代改进。考虑一个场景，LLM生成一篇科学摘要。基于MML的模块可以通过应用源自特定领域知识的逻辑规则来验证摘要，例如对单位、测量或因果关系的一致性检查。这种迭代过程确保最终输出既事实准确又逻辑连贯。另一个有前景的方向是使用MML实时监控和纠正LLM输出。基于MML的模块可以充当动态过滤器，在生成过程中评估中间输出。例如，在生成法律文件时，模块化系统可以通过拒绝违反预定义法律约束的输出来强制合规。这种动态交互显著增强了LLM的可靠性和可信度，使其适合于准确性至关重要的应用。

鼓励公平性和去偏见。LLMs中的公平性和偏见问题源于其训练数据中隐藏的偏见。这些偏见可以在从招聘到贷款的各种应用中表现为歧视行为[7]。虽然传统方法专注于在数据预处理或模型训练阶段减轻偏见，MML通过直接将公平性约束嵌入推理过程引入了一种新的范式。MML框架内的模块化组件可以明确定义公平性标准，确保决策与道德准则和社会规范一致。例如，在求职推荐系统中，模块化规则可以通过评估不同群体的候选人是否获得平等推荐来强制执行人口统计学平等待遇。同样，在贷款场景中，模块化推理可以验证信用度决策以防止基于种族或性别的歧视。除了强制执行公平性，MML还可以进一步促进偏见检测和纠正。神经模块可以预处理大型数据集以识别偏见指示模式，而模块化推理可以分析这些模式以推断其根本原因。这种双重能力使全面应对偏见成为可能，结合神经网络的可扩展性和模块化系统的可解释性。此外，MML的模块化特性允许公平性标准的持续演变。随着社会规范的变化，人类可理解的规则可以在无需重新训练整个系统的情况下进行更新。这种适应性确保MML增强的LLMs与当代道德标准保持一致，为负责任的人工智能开发设定新的基准。

强制稳健性。安全性是部署AI系统于实际场景中的基本要求，特别是在医疗保健、金融和自主系统等关键领域。传统LLMs虽然强大，但缺乏确保安全性的内在机制，使其容易受到对抗攻击、超出分布范围的情况和灾难性错误的影响[8]，[9]。MML通过在基于MML的模块中嵌入安全约束来解决这些漏洞。这些模块充当“护栏”，执行防止不安全行为的规则。例如，在自动驾驶应用中，模块化系统可以验证LLMs做出的决策是否符合预定义的安全协议，如与其他车辆保持安全距离或遵守交通法规。MML增强的LLMs的稳健性不仅限于安全约束。基于MML的模块可以通过分析输出来检查不一致或偏离预期模式的异常情况，从而实现实时异常检测。在网络安全领域，例如，模块化推理可以识别潜在违规行为的异常网络活动，从而实现主动干预。

增强可解释性。AI系统的可解释性是一个紧迫的问题，尤其是在它们越来越多地部署在问责制至关重要的领域[10]。传统LLMs常被称为“黑箱”，难以为其输出提供解释，限制了其在关键应用中的采用。MML通过集成生成可解释输出的模块化推理模块提供了解决方案。这些模块将复杂的神经表示转化为人类可读的逻辑解释，弥合了机器学习与人类理解之间的差距。例如，在法律AI系统中，基于MML的模块可以解释特定法规和判例如何影响推荐，提供清晰的决策审计轨迹。MML的模块化架构还促进了领域特定的解释定制。通过根据特定领域的需要定制模块化规则，MML可以生成情境相关的解释。在医疗保健中，例如，模块化系统可以阐明导致诊断的临床路径，使从业者能够验证和完善其决策。此外，MML增强的LLMs支持交互式可解释性，允许用户查询和探索输出背后的推理。例如，在金融应用中，用户可以询问为什么贷款申请被拒绝并收到详细解释所考虑的因素。这种交互能力不仅增强了透明度，还促进了用户信任和参与。最后但并非最不重要的是，可解释性还可以通过提供清晰的决策理由来促进对AI系统的信任。例如，在医疗诊断中，模块化系统可以生成详细的治疗推荐解释，使临床医生能够验证其有效性。这种透明性对于通过培养对AI系统的信心来建立信任尤为重要，特别是在高风险应用中。

因此，LLMs在处理非结构化数据、理解自然语言和跨各种模态捕获语义细微差别方面表现出色。然而，它们在推理、事实一致性、公平性和可解释性方面的局限性需要一个整合MML原则的增强框架。MML提供了一个结构化的骨干，增强了LLMs，确保在实际应用中具有逻辑一致性、适应性和稳健性。MML的一个关键优势是其模块化架构，它能够将感知与推理解耦。LLMs以其卓越的能力解析复杂的高维数据，可以作为感知层，将原始输入转换为结构化表示。这些结构化表示随后可以在MML框架内的专用推理模块中处理，确保一致性、可解释性和逻辑健全性。当然，开发一个统一框架需要解决将LLMs产生的连续表示与离散模块化推理集成的技术挑战。可微推理架构，如神经模块集成管道，促进了这些组件之间的无缝交互。这些架构用连续操作近似模块化逻辑，实现基于梯度的优化同时保持逻辑一致性。

总而言之，MML和LLMs之间的协同作用产生了两者单独无法实现的新兴属性。受认知双过程理论[11]的启发，这种混合系统通过LLMs实现直观、快速的决策，同时通过基于MML的模块确保深思熟虑、逻辑推理。这种双层方法显著提高了在多样化应用中的决策准确性和适应性。

此外，由LLM驱动的内容生成与基于MML的验证之间的相互作用能够促进假设生成和验证的稳健迭代过程。

通过在MML框架内构建LLMs，AI系统可以实现增强的稳健性、可解释性和适应性，为下一代统一智能系统奠定基础[12]。

4 MML的可行实现

我们介绍了MML的方法论，并在图2中以VQA为例展示了通用框架的实例化。在本节中，我们继续通过介绍三种互补策略来详细说明可行的实现方式：解耦表示学习（DRL）、神经架构搜索（NAS）和神经符号学习（NSL）。首先，DRL将独立的语义因素解耦为模块化表示，促进透明性、泛化能力和可控性。解耦使得复杂数据属性得以分离，使学习到的表示更具可解释性和鲁棒性。其次，NAS通过高效探索大型搜索空间，自动设计模块化网络，识别出在性能和计算效率之间取得平衡的最佳运算符配置和互连。这种自动化显著减少了模型设计中的人力投入，同时增强了灵活性。第三，NSL以模块化方式将符号逻辑集成到LLMs的推理过程中，实现结构化、基于规则的验证和神经输出的迭代改进。这种符号设计缓解了诸如幻觉等问题并强化了逻辑一致性，对高风险应用至关重要。总体而言，这些相互关联的策略体现了MML的实际实现方式。它们不仅解决了传统LLMs的固有限制，还为下一代在各种实际应用中稳健、可解释且具备逻辑能力的模型铺平了道路。图3展示了此MML实现的整体优化细节。

4.1 用于模块化表示的解耦表示学习

用于模块化表示的解耦表示学习（DRL）旨在独立且有意义地分离和表示数据中的潜在变化因素。DRL力求将复杂数据分解为各个关注特定方面（如图像中的颜色、形状或大小）的不同组件或模块。解耦在无监督学习和强化学习中至关重要，因为它通过清晰和有意义的表示促进有效决策。与直接学习捕获纠缠特征的数据表示的传统端到端深度学习模型不同，DRL努力提取对应于个别因素的潜在变量，促进类人泛化[13]。模块化表示使模型能够学习结构化、可解释的特征，增强其泛化能力和对新情况的适应性[14]。
4.1.0.1 定义：解耦表示学习（DRL）：设 $\mathcal{M}_{\theta_{D}}=\left\{D_{1}, D_{2}, \ldots, D_{n}\right\}$ 表示一组解耦表示模块，其中每个模块 $D_{i}$ 通过函数 $d_{\theta_{i}}$ 将输入数据 $\in \mathcal{X}$ 映射到潜在变量 $z_{i}$ ，即，

$z_{i}=d_{\theta_{i}}(x), \quad \forall i \in\{1,2, \ldots, n\}$

解耦嵌入（又称表示） $z =$ $\left(z_{1}, z_{2}, \ldots, z_{n}\right) \in \mathcal{Z}$ 表示潜在变量 $z_{i}$ 对应于输入数据中的统计独立变化因素 $v_{i}$ ，使得：

$\mid x)=\prod_{i=1}^{n} p\left(z_{i} \mid v_{i}\right)$

这表明每个潜在变量 $z_{i}$ 仅负责捕捉一个潜在因素 $v_{i}$ ，并且对其它因素 $v_{j}(j \neq i)$ 的变化保持不变。模块化表示函数 $\mathcal{M}_{\theta_{D}}$ 可以表示为：

$\mathcal{M}_{\theta_{D}}(x)=\left(d_{\theta_{1}}(x), d_{\theta_{2}}(x), \ldots, d_{\theta_{n}}(x)\right)$

该函数输出一组解耦且语义上有意义的特征。

DRL的目标是通过最小化以下损失函数来学习解耦表示：

$\begin{aligned} & \theta_{D}^{*}=\arg \min _{\theta_{D}} \mathcal{L}(\mathbf{X}, \mathbf{Z}, \mathbf{A}, \mathbf{Y}) \\ & \mathbf{Z}^{*}=\mathcal{M}_{\theta_{D}^{*}} \end{aligned}$

其中 $\mathbf{Z}$ 是解耦表示， $\mathbf{Z}^{*}$ 是最优学习表示， $\mathcal{L}$ 表示衡量预测输出与真实输出之间差异的损失函数， $\mathbf{X}$ 是输入数据， $\mathbf{A}$ 是模块的架构， $\mathbf{Y}$ 是目标输出。优化过程旨在学习解耦表示模块的参数 $\theta_{D}$ ，使得学习到的表示在语义上有意义且独立。

这种模块化设计突显了DRL如何将复杂表示分解为独立、有意义的组件，促进稳健和可解释的学习。具体而言，DRL使机器学习模型能够识别和解耦观察数据中的隐藏因素，从而使学习到的表示与现实世界的语义相一致。这些表示对外部语义变化具有不变性[15]，[16]，与真实语义一致，并且对混淆或偏见信息具有鲁棒性[17]，使其适用于各种下游任务。

图3：我们提出的可行MML实现的整体优化：联合优化：1）解耦表示学习（DRL）模块，负责从输入数据中学习一组解耦表示；2）神经架构搜索（NAS）模块，负责搜索针对不同功能的定制transformer块；和3）神经符号学习（NSL）模块，负责通过神经符号推理精炼NAS模块的输出。

此外，通过将任务相关知识从冗余组件中解耦，DRL增强了基础模型（如ChatGPT和Stable Diffusion）的可解释性和效率[18]。这种能力有助于使基础模型更加透明和适应，解决与任务特异性和可解释性相关的挑战。

4.2 用于模块化模型的神经架构搜索

神经架构搜索（NAS）自动化神经网络架构的设计，显著减少了人力投入，同时实现了最先进的性能[19]。它对模块化模型尤其有价值，其中复杂网络被分解为可以独立设计和优化的专门子结构或块。NAS旨在识别这些模块及其互连的最佳组合，从而提高整体性能，同时保持计算效率。模块化模型允许NAS通过定制网络组件以适应特定要求来适应各种任务，如图像分类、目标检测、语义分割和语言处理[20]，[21]，[22]。
定义2.（神经架构搜索（NAS））设 $\mathbf{M}=$ $\left\{M_{1}, M_{2}, \ldots, M_{K}\right\}$ 表示一组模块化组件，其中每个模块 $M_{i}$ 对应于一个特定功能。这些模块通过路由从超网络中选择。我们定义该超网络中的每一层如下：

$M_{\alpha_{i}}\left(\mathbf{X}_{l-1}\right)=\sum_{i=1}^{|\mathcal{O}|} \alpha_{l, i} \mathbf{T}_{l, i}\left(\mathbf{X}_{l-1}\right)$

其中 $\mathbf{T}_{l, i}$ 是 $l$ 层的第 $i$ 个块， $\alpha_{l, i}$ 是 $l$ 层第 $i$ 个块的权重， $\mathbf{X}_{l-1}$ 是 $l$ 层的输入， $|\mathcal{O}|$ 是每层的块数。我们可以采用堆叠层的方式来组成一个模块，

$\mathbf{X}_{l}=M_{\alpha_{l}}\left(\mathbf{X}_{l-1}\right), \quad l=1,2, \ldots, L$

其中 $L$ 是总层数。
设架构搜索空间 $\mathcal{A}$ 由通过组合这些块形成的全部可能配置组成。设 $a_{j} \in \mathcal{A}$
表示形成实现特定功能的模块 $M_{j}$ 的具体架构。

$a_{j}=\left\{\alpha_{l, i}\right\}, \quad l=1,2, \ldots, L, i=1,2, \ldots,|\mathcal{O}|$

其中 $\alpha_{l, i}$ 决定了模块 $M_{j}$ 如何为每层的块加权，而它们的组，即 $a_{j}$ ，是决定模块 $M_{j}$ 如何在超网络中选择不同计算路径以提供模型设计灵活性的配置。

NAS $\mathcal{M}_{\theta_{M}}$ 的目标是找到相对于任务的最优架构以形成模块。设 $\mathbf{A}$ 表示架构集 $\left\{a_{1}, a_{2}, \ldots, a_{K}\right\}$ ，其中 $a_{j}$ 是模块 $M_{j}$ 的架构。优化目标可以数学表述为：

$\begin{aligned} & \theta_{M}^{*}=\arg \min _{\theta_{M}} \mathcal{L}\left(\mathbf{X}, \mathbf{Z}^{*}, \mathbf{A}, \mathbf{Y}\right) \\ & \mathbf{A}^{*}=\mathcal{M}_{\theta_{M}^{*}} \end{aligned}$

其中 $\mathbf{A}$ 是选定的架构， $\mathbf{A}^{*}$ 是最优学习架构， $\mathcal{L}$ 表示衡量预测输出与真实输出之间差异的损失函数。搜索过程使用强化学习、进化算法或基于梯度的优化等搜索算法优化模块的设计及其互连。

这种模块化设计允许灵活组合不同的神经组件，同时高效识别最优架构，平衡性能和计算成本。NAS过程通常包括三个关键组件：搜索空间、搜索策略和评估策略[19]。

模块化NAS中的搜索空间分为宏观和微观空间。宏观空间处理整体架构，而微观空间专注于单个模块或块。模块化设计允许集成各种运算符，如卷积、注意力或聚合，使其适用于不同类型的数据，如图像、序列和图形[23]。搜索策略包括强化学习（RL）、进化算法（EA）和基于梯度的方法。基于RL的NAS将搜索过程视为决策任务，根据预期性能增益选择模块化组件[24]。基于EA的NAS通过模拟生物进化演化模块化架构，迭代选择和变异模块以提高性能[25]。基于梯度的NAS，如DARTS [26]，将搜索空间放松到连续域，允许对模块连接和配置进行高效的梯度优化。评估策略旨在有效评估模型性能，鉴于广泛的搜索空间。重量共享[27]、基于预测器的估计[28]和零样本方法[29]等技术减少了评估不同模块组合的成本。一次性NAS，例如，训练一个所有模块子网络共享权重的超级网络，使个体架构无需重新训练即可快速评估[30]。

4.3 用于模块化推理的神经符号学习

神经符号学习（NSL）将神经网络和符号推理的优势结合起来，开发既灵活又可解释的模块化AI系统[31]。在
模块化推理中，复杂任务被划分为更小的、专门的组件，每个组件负责问题的特定方面。通过利用神经网络从数据中学习的能力和符号推理的结构化逻辑，NSL增强了动态适应性和逻辑推理的优势，使其适用于机器人、自然语言处理和自主系统中的复杂任务[32]，[33]。
定义3.（神经符号学习（NSL））
设 $\mathcal{M}_{\theta_{R}}=\left\{N_{1}, N_{2}, \ldots, N_{m}\right\}$ 表示一组神经网络模块，其中每个模块 $N_{i}$ 通过函数 $f_{\theta_{i}}$ 将输入数据 $x_{i}$ 映射到潜在表示 $z_{i}$ ，即，

$z_{i}=f_{\theta_{i}}\left(x_{i}\right), \quad \forall i \in\{1,2, \ldots, m\}$

设 $\mathcal{S}=\left\{S_{1}, S_{2}, \ldots, S_{n}\right\}$ 表示一组符号推理模块，其中每个符号模块 $S_{j}$ 通过推理函数 $g_{j}$ 处理符号表示 $s_{j}$ 以产生逻辑结论 $c_{j}$ ，即，

$c_{j}=g_{j}\left(s_{j}\right), \quad \forall j \in\{1,2, \ldots, n\}$

NSL的目标是学习一个结合神经模块 $\mathcal{N}$ 和符号模块 $\mathcal{S}$ 的联合模块模型 $\mathcal{M}$ ，如下所示：

$\mathcal{M}_{\mathcal{R}}(x)=\bigoplus_{j=1}^{n} g_{j}\left(\bigoplus_{i=1}^{m} f_{\theta_{i}}\left(x_{i}\right)\right)$

这里，符号 $\bigoplus$ 表示模块聚合操作，将多个模块的输出组合成统一表示。具体来说，内部聚合 $\bigoplus_{i=1}^{m}$ 收集神经模块的输出，而外部聚合 $\bigoplus_{j=1}^{n}$ 组合符号推理模块的逻辑结论。

模型的优化目标是最小化损失函数：

$\begin{aligned} & \theta_{R}^{*}=\arg \min _{\theta_{R}} \mathcal{L}\left(\mathbf{X}, \mathbf{Z}^{*}, \mathbf{A}, \mathbf{Y}\right) \\ & \mathbf{Y}^{*}=\mathcal{M}_{\theta_{R}^{*}} \end{aligned}$

其中 $\mathbf{Y}$ 是模型的输出， $\mathbf{X}$ 是输入数据， $\mathbf{A}$ 是模块的架构， $\mathbf{Y}^{*}$ 是最优学习输出。优化过程旨在学习神经和符号模块的参数 $\theta_{R}$ ，使组合模型产生准确预测的同时保持可解释性和逻辑一致性。

这种模块化设计促进了神经和符号系统之间的平衡互动。例如，Yoshua Bengio ${ }^{1}$ 提出的“系统1和系统2”框架概述了一种协作模型，其中神经模块执行快速模式识别，而符号模块进行逻辑推理[31]。模块化推理能够优化神经网络和符号系统，增强复杂推理任务的效率和可解释性[34]。NSL还显示出通过整合逻辑一致性、引导推理策略和增强提示工程来改进LLMs的潜力，使LLMs更加稳健和可解释[35]，[36]。

https://yoshuabengio.org/2023/03/21/ scaling-in-the-service-of-reasoning-model-based-ml/
5 挑战与未来方向

尽管将MML集成到LLMs中的混合系统承诺增强推理、安全性和可解释性，但其开发面临几个挑战，照亮了未来研究的路径。

集成与可配置接口。首要挑战之一是神经网络（在连续、梯度驱动的空间中运行）与执行离散、基于逻辑操作的MML模块之间的无缝接口。当前方法通常依赖于启发式接口或可微分松弛来实现这些组件之间的通信。展望未来，研究应探索适应性强且动态可配置的接口，能够根据输入复杂性或任务需求自动调节模块化干预的程度。可微编程和联合训练策略的进步可能为真正统一的架构铺平道路。

可微性和联合优化。可微神经计算与不可微模块化推理之间的固有不匹配为端到端训练创造了重大障碍。当前解决方案依赖于代理损失函数或近似值，这可能会引入偏差并限制性能。开发新型训练方法，如元学习、强化学习引导的结构搜索，甚至是完全可微的模块化推理范式，可以帮助弥合这一差距。这些方法将通过模块组件进行更准确的反向传播，确保组合系统能够一致地学习。

LLMs本质上计算密集型，添加模块化推理层可能会进一步加剧资源需求。这种集成对训练和实时推理都构成了挑战，特别是在资源受限环境或处理高容量数据流时。未来研究应优先开发可扩展架构和高效计算技术以适用于基于MML的LLMs。如参数高效微调、模型量化和平行处理框架等进步可以减轻计算负担，同时保持模型性能。

评估与基准测试。传统的LLMs评估指标——集中在语言流畅性和任务特定准确性上——未能充分捕捉MML带来的逻辑一致性和可解释性提升。没有标准化的基准来评估性能和推理质量，很难衡量不同系统间的进展。建立包括逻辑连贯性、安全性、公平性和解释质量等指标在内的全面评估协议将是至关重要的。这些基准不仅有助于严谨比较，还将推动在安全关键和高风险应用中稳健模型的发展。

平衡可解释性与性能。虽然集成基于MML的模块通过提供清晰的审计跟踪和逻辑解释显著增强了可解释性，但通常会在数据密集型任务的原始预测性能上有所权衡。在维持高性能的同时实现人类可理解推理仍然是一个开放的研究问题。未来工作可能调查自适应系统，该系统根据任务的信心或复杂度动态调整模块化处理水平，例如响应不确定性度量调节推理深度的推理策略。

用于适应性推理的模块化世界模型。另一个关键的未来方向是整合模块化世界模型（MWMs）以增强LLMs的推理、适应性和泛化能力。与传统端到端深度学习方法不同，MWMs将世界知识分解为可动态与LLMs交互的结构化、可重用组件，用于因果推理、反事实推理和现实世界模拟。这种模块化方法能够高效适应新任务，减少大量再训练的需求，同时提高可解释性和鲁棒性。未来研究应集中于一种模块化架构，允许LLMs在实时世界中查询和更新模块化世界模型，利用图推理、可微编程和结构化知识蒸馏的进步。通过嵌入MWMs，下一代AI系统可以从静态模式识别转向复杂环境中适应性强、组合性强且透明的决策制定。

总之，应对这些挑战需要一个整体研究议程，改进MML基础LLMs的集成机制和训练方法。通过开发自适应接口、新型联合优化技术、可扩展架构和标准化评估基准，以及找到有效平衡可解释性与性能的方法，社区可以解锁MML系统的全部潜力。这些进步对于迈向更稳健、透明和多用途的基础模型至关重要，这些模型能更好地满足实际应用需求。

6 结论

在本文中，我们提出了模块化机器学习（MML）的新概念，详细阐述了MML在推进LLMs中的关键作用。通过剖析当前LLMs固有的挑战，从逻辑推理和事实一致性限制到可解释性和可扩展性问题，我们展示了模块化学习范式如何弥合原始（连续）神经感知与结构化（离散）逻辑推理之间的差距。我们表明，MML和LLMs的结合不仅缓解了幻觉和偏差等问题，还为关键领域的更可解释和负责任的AI应用铺平了道路。

展望未来，解决可配置接口、联合优化和计算效率的挑战至关重要。未来研究应优先发展自适应接口和先进的混合训练方法，以及建立标准化基准以严格评估语言和逻辑能力。通过不断完善这些方法，AI社区可以充分发挥MML的潜力，引导大型基础模型走向更高的可靠性和实际应用价值。作为最终结论，我们认为MML最终是新一代LLMs进化不可或缺的战略。

参考文献

[1] J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F. L. Aleman, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat 等人，“Gpt-4 技术报告”，arXiv 预印本 arXiv:2303.08774, 2023.
[2] S. J. Hoch, “反事实推理和个人事件预测的准确性。”《实验心理学杂志：学习、记忆和认知》，第11卷，第4期，第719页，1985年。
[3] H. Dong, J. Mao, T. Lin, C. Wang, L. Li 和 D. Zhou, “神经逻辑机”，arXiv 预印本 arXiv:1904.11694, 2019.
[4] E. Cambria, L. Malandri, F. Mercorio, N. Nobani 和 A. Seveso, “XAI 与 Ilms：可解释人工智能与大规模语言模型关系综述”，arXiv 预印本 arXiv:2407.15248, 2024.
[5] Z. Zeng, Q. Cheng 和 Y. Si, “基于逻辑规则的知识图谱推理：综合调查”，数学，第11卷，第21期，第4486页，2023年。
[6] F. Larøi, T. M. Luhrmann, V. Bell, W. A. Christian Jr, S. Deshpande, C. Fernyhough, J. Jenkins 和 A. Woods, “文化和幻觉：概述及未来方向”，精神分裂症公报，第40卷，补充_4期，第S213-S220页，2014年。
[7] Y. Li, M. Du, R. Song, X. Wang 和 Y. Wang, “大规模语言模型中的公平性综述”，arXiv 预印本 arXiv:2308.10149, 2023.
[8] A. Kumar, C. Agarwal, S. Srinivas, A. J. Li, S. Feizi 和 H. Lakkaraju, “认证llm对抗提示的安全性”，arXiv 预印本 arXiv:2309.02705, 2023.
[9] A. Wei, N. Haghtalab 和 J. Steinhardt, “越狱：llm 安全培训为何失败？” 神经信息处理系统进展，第36卷，第80 079-80 110页，2023.
[10] S. Huang, S. Mamidanna, S. Jangam, Y. Zhou 和 L. H. Gilpin, “大语言模型能否自我解释？Ilm生成的自我解释研究”，arXiv 预印本 arXiv:2310.11207, 2023.
[11] C. G. Beevers, “抑郁症的认知脆弱性：双重过程模型”，临床心理学评论，第25卷，第7期，第9751002页，2005.
[12] S. Wu, H. Fei, L. Qu, W. Ji 和 T.-S. Chua, “Next-gpt：任意到任意多模态 Ilm”，第四十一届国际机器学习会议，2024.
[13] R. Geirhos, J.-H. Jacobsen, C. Michaelis, R. Zemel, W. Brendel, M. Bethge 和 F. A. Wichmann, “深度神经网络中的捷径学习”，自然机器智能，第2卷，第11期，第665-673页，2020.
[14] Y. Bengio, A. Courville 和 P. Vincent, “表示学习：回顾与新视角”，IEEE 模式分析与机器智能汇刊，第35卷，第8期，第1798-1828页，2013.
[15] H. Kim 和 A. Mnih, “通过因子分解解耦”，第2649-2658页，2018.
[16] J. Lee, E. Kim, J. Lee, J. Lee 和 J. Choo, “通过解耦特征增强学习去偏表示”，神经信息处理系统进展，第34卷，第25 123-25 133页，2021.
[17] R. Suter, D. Miladinovic, B. Schölkopf 和 S. Bauer, “稳健解耦因果机制：验证深层表示以实现干预稳健性”，第6056-6065页，2019.
[18] J. Zeng, Y. Jiang, S. Wu, Y. Yin 和 M. Li, “任务引导的预训练语言模型解耦微调”，第3126-3137页，2022.
[19] T. Elsken, J. H. Metzen 和 F. Hutter, “神经架构搜索：综述”，《机器学习研究杂志》，第20卷，第1期，第1997-2017页，2019.
[20] B. Zoph, V. Vasudevan, J. Shlens 和 Q. V. Le, “可转移架构的学习：可扩展图像识别”，第8697-8710页，2018.
[21] Y. Chen, T. Yang, X. Zhang, G. Meng, X. Xiao 和 J. Sun, “Detnas：目标检测的骨干搜索”，神经信息处理系统进展，第32卷，2019.
[22] Y. Wang, Y. Yang, Y. Chen, J. Bai, C. Zhang, G. Su, X. Kou, Y. Tong, M. Yang 和 L. Zhou, “Textnas：为文本表示量身定制的神经架构搜索空间”，第34卷，第05期，第9242-9249页，2020.
[23] B. Zoph 和 Q. V. Le, “使用强化学习进行神经架构搜索”，arXiv 预印本 arXiv:1611.01578, 2016.
[24] Y. Jaafra, J. L. Laurent, A. Deruyver 和 M. S. Naceur, “强化学习在神经架构搜索中的应用：综述”，图像与视觉计算，第89卷，第57-66页，2019.
[25] K. De Jong, “演化计算：统一方法”，第185-199页，2016.
[26] H. Liu, K. Simonyan 和 Y. Yang, “Darts：可微架构搜索”，arXiv 预印本 arXiv:1806.09055, 2018.
[27] L. Xie, X. Chen, K. Bi, L. Wei, Y. Xu, L. Wang, Z. Chen, A. Xiao, J. Chang, X. Zhang 等人，“权重共享神经架构搜索：缩小优化差距的战斗”，ACM Computing Surveys (CSUR)，第54卷，第9期，第1-37页，2021.
[28] C. White, A. Zela, B. Ru, Y. Liu 和 F. Hutter, “神经架构搜索中的性能预测器有多强大？” arXiv 预印本 arXiv:2104.01177, 2021.
[29] H. Chen, M. Lin, X. Sun 和 H. Li, “Nas-bench-zero：一个大规模数据集，用于理解零样本神经架构搜索”，2021.
[30] H. Pham, M. Guan, B. Zoph, Q. Le 和 J. Dean, “通过参数共享实现高效的神经架构搜索”，ICML，第4095-4104页，2018.
[31] Y. Bengio, “从系统1深度学习到系统2深度学习”，2019.
[32] K. Yi, J. Wu, C. Gan, A. Torralba, P. Kohli 和 J. B. Tenenbaum, “神经符号VQA：将推理从视觉和语言理解中分离”，arXiv 预印本 arXiv:1810.02338, 2018.
[33] W.-Z. Dai, Q. Xu, Y. Yu 和 Z.-H. Zhou, “通过归纳学习连接机器学习与逻辑推理”，第2811-2822页，2019.
[34] J. Pfeiffer, S. Ruder, I. Vulić 和 E. M. Ponti, “模块化深度学习”，arXiv 预印本 arXiv:2302.11529, 2023.
[35] Y. Zhang, Y. Li, L. Cui, D. Cai, L. Liu, T. Fu, X. Huang, E. Zhao, Y. Zhang, Y. Chen 等人，“AI 海洋中的海妖之歌：大规模语言模型幻觉综述”，arXiv 预印本 arXiv:2309.01219, 2023.
[36] L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray 等人，“通过人类反馈训练语言模型遵循指令”，arXiv 预印本 arXiv:2203.02155, 2022.

王鑫目前是清华大学计算机科学与技术系的副教授。他在中国浙江大学获得了计算机科学与技术专业的博士学位和工学学士学位。他还拥有加拿大西蒙弗雷泽大学的计算科学博士学位。他的研究兴趣包括多媒体智能、机器学习及其应用。他在ICML、NeurIPS、IEEE TPAMI、IEEE TKDE、ACM KDD、WWW、ACM SIGIR、ACM Multimedia等期刊和会议上发表了超过200篇高质量的研究论文，并获得了包括ACM Multimedia Asia最佳论文奖在内的三个最佳论文奖。他是ACM中国新星奖、IEEE TCMC新星奖和达摩院青年学者的获得者。

李浩洋目前是康奈尔大学威尔康奈尔医学院人口健康科学系的博士后研究员。他于2023年获得清华大学计算机科学与技术系的博士学位。他于2018年获得清华大学计算机科学与技术系的工学学士学位。他的研究兴趣主要集中在图上的机器学习和非分布泛化。他在IEEE TKDE、ACM TOIS、NeurIPS、ACM KDD、ACM Web Conference、AAAI、UCAI、ICLR、ACM Multimedia、IEEE ICDE、IEEE ICDM等顶级期刊和会议上发表了高质量的论文，并获得了一个最佳论文奖。

张泽阳于2020年获得清华大学计算机科学与技术系的工学学士学位。他是清华大学计算机科学与技术系的博士研究生。他的主要研究兴趣集中在图表示学习、自动机器学习和非分布泛化。他在NeurIPS、AAAI等顶级会议上发表了几篇论文。

陈海波目前是清华大学计算机科学与技术系的博士研究生。他从中南大学计算机科学与工程学院获得了工学学士学位。他的主要研究兴趣包括图机器学习、非分布学习和多模态图。

朱文武目前是清华大学计算机科学与技术系的教授。他还担任国家信息科学技术研究中心副主任和清华大学大数据中心副主任。在此之前，他曾是微软亚洲研究院的高级研究员和研究经理。2004年至2008年，他担任英特尔中国研究院的首席科学家和院长。1996年至1999年，他在新泽西州贝尔实验室担任技术员。他于1996年获得纽约大学博士学位。他的研究兴趣在于数据驱动的多媒体网络和跨媒体大数据计算领域。他发表了400多篇被引用的论文，是100多项专利的发明人或共同发明人。他获得了八个最佳论文奖，包括2012年的ACM Multimedia和2001年及2019年的IEEE Transactions on Circuits and Systems for Video Technology。
他于2017年至2019年担任IEEE Transactions on Multimedia的主编。他分别于2015年至2016年和2007年至2010年担任IEEE Transactions on Multimedia和IEEE Transactions on Mobile Computing的指导委员会成员。他分别担任2018年ACM Multimedia和2019年ACM CIKM的大会联席主席。他是AAAS会士、IEEE会士、SPIE会士，以及欧洲科学院（Academia Europaea）成员。

参考论文：https://arxiv.org/pdf/2504.20020