DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous

baidu_41890159

已于 2024-10-17 11:01:39 修改

阅读量966

点赞数 14

文章标签：语言模型人工智能

于 2024-10-17 10:51:17 首次发布

本文链接：https://blog.csdn.net/baidu_41890159/article/details/142999531

版权

摘要

大型语言模型（LLMs）为智能代理开辟了新的可能性，赋予了它们类似人类的思考和认知能力。在这项工作中，我们深入研究了大型语言模型（LLMs）在自动驾驶（AD）中的潜力。我们介绍了DriveMLM，这是一个基于LLM的自动驾驶框架，可以在现实模拟器中执行闭环自动驾驶。为此，(1) 我们通过根据现成的运动规划模块标准化决策状态，弥合了语言决策和车辆控制命令之间的差距。(2) 我们采用了一个多模态大型语言模型（MLLM）来模拟模块化AD系统的行为规划模块，该模型使用驾驶规则、用户命令和各种传感器（例如，摄像头、激光雷达）的输入作为输入，并做出驾驶决策并提供解释；这个模型可以即插即用在现有的AD系统中，如Apollo，进行闭环驾驶。(3) 我们设计了一个有效的数据引擎，收集包含决策状态和相应解释注释的数据集，用于模型训练和评估。我们进行了广泛的实验，并表明我们的模型在CARLA Town05 Long上取得了76.1的驾驶得分，并在相同设置下超过了Apollo基线4.7分，证明了我们模型的有效性。我们希望这项工作可以作为使用LLMs进行自动驾驶的基线。
在这里插入图片描述

1.引言

自动驾驶（AD）近年来取得了显著进展，从传统的基于规则的系统，这些系统依赖于先验知识中的预定义规则集（见图1a），发展到数据驱动的、端到端的系统，如图1b所示。尽管取得了进展，但这些系统由于专家知识或训练数据多样性的限制而遇到了挑战。这使得它们难以处理角落案例情况，尽管人类司机可能觉得处理起来很直观。与这些传统的基于规则或数据驱动的AD规划器相比，通过Web规模的文本语料库训练的大型语言模型（LLMs），具备了广泛的世界知识、强大的逻辑推理和高级认知能力。

这些特性使它们成为AD系统中潜在的规划器，为自动驾驶提供了类似人类的方法。一些最近的研究[13, 16, 24, 39, 56, 68, 72]已经尝试将LLMs集成到AD系统中，专注于根据驾驶场景生成基于语言的决策。然而，这些方法在执行现实环境或现实模拟器中的闭环驾驶时存在局限性。这是因为LLMs的输出主要是语言和概念性的，不能用于车辆控制。在传统的模块化AD系统[3, 21, 22]中，高级战略目标和低级操作动作之间的差距是通过行为规划模块连接的，其决策状态可以很容易地通过后续的运动规划和控制转换为车辆控制信号。这激励我们将LLM与行为规划模块的决策状态对齐，并进一步设计一个基于LLM的闭环AD系统，该系统可以使用对齐的LLM进行行为规划，在现实环境或现实模拟器上运行。基于这一点，我们提出了DriveMLM，第一个基于LLM的AD框架，可以在现实模拟器中执行闭环自动驾驶。为了实现这一点，我们有三个关键设计：(1) 我们研究了成熟阿波罗系统[3]的行为规划模块的决策状态，并将它们转换为可以被LLMs轻松处理的形式。(2) 我们开发了一个多模态LLM（MLLM）规划器，可以接受当前的多模态输入，包括多视图图像、激光雷达点云、交通规则、系统消息和用户指令，并预测决策状态；(3) 为了获得足够的行为规划状态对齐的训练数据，我们手动在CARLA上收集了280小时的驾驶数据，并通过高效的数据引擎将它们转换为决策状态和相应的解释注释。有了这些设计，我们可以获得一个MLLM规划器，它可以基于驾驶场景和用户需求做出决策，并且其决策可以很容易地转换为车辆控制信号，以进行闭环驾驶。我们的工作具有以下优势：(1) 得益于对齐的决策状态，我们的MLLM规划器可以很容易地与现有的模块化AD系统集成，如Apollo，实现闭环驾驶，而无需进行任何重大更改或修改。(2) 通过将语言指令作为输入，我们的模型既可以处理用户需求（例如，超车），也可以处理高级系统消息（例如，定义基本驾驶逻辑）。这使得我们的模型更加灵活，能够适应不同的驾驶情况和角落案例。(3) 它可以提供可解释性并解释不同的决策。这增强了我们模型的透明度和可信度，因为它可以向用户解释其行为和选择。

总之，这项工作的贡献是三方面的：(1) 我们提出了一个基于LLM的AD框架，通过将LLM的输出与行为规划模块的决策状态对齐，弥合了LLM和闭环驾驶之间的差距。(2) 为了实现这个框架，我们定制了一套可以被LLMs轻松处理的形式的决策状态，设计了一个用于决策预测的MLLM规划器，并开发了一个能够有效生成决策状态和相应解释注释的数据引擎，用于模型训练和评估。(3) 为了验证我们方法的有效性，我们不仅在包括驾驶得分（DS）和每次干预里程（MPI）在内的闭环驾驶指标上评估了我们的方法，而且还使用了理解指标，包括决策状态的准确性、F1-measure，以及决策解释的BLEU-4、CIDEr和METEOR，来评估我们模型的驾驶理解能力。值得注意的是，我们的方法在CARLA Town05 Long上取得了76.1 DS、0.955 MPI的结果，比Apollo高出4.7分、1.25倍。此外，我们可以通过使用语言指令描述特殊要求来改变MLLM规划器的决策，例如为救护车或交通规则让路，如图2所示。

2.相关工作

2.1多模态大型语言模型

大型语言模型（LLMs）的快速发展最近催生了多模态大型语言模型（MLLMs）的出现，这些模型增强了语言模型分析和理解来自不同模态的信息的能力。这些进展的突出实例包括GPT-4、FLAMINGO、KOSMOS-1、LLaVA系列和MiniGPT-4，以及InstructBLIP。这些模型集成了视觉指令调整方法，增强了MLLMs遵循指定指令的能力。此外，mPLUG-DocOwl扩大了MLLMs的文档理解能力，通过整合数字文档数据集。同时，Shikra、VisionLLM、KOSMOS-2、LISA和Qwen-VL增强了MLLMs的视觉定位能力，使它们能够根据用户的提示检测或分割对象。VideoChat和VideoLLaMA引入了视频处理能力到LLMs中。此外，NExT-GPT引入了模态切换指令调整技术，用于多模态提示调整，方便了处理任意组合的文本、图像、视频和音频的输入和输出。ASM和GPT4RoI引入了区域级识别和理解能力到LLMs中。
在这里插入图片描述

2.2智能代理与大型语言模型

LLMs的一个新兴应用是促进智能代理（例如机器人、虚拟助手或游戏角色）与各种实体之间的交互和通信，包括人类、环境甚至智能代理本身。几种基于API的方法，包括Visual ChatGPT、MM-REACT、HuggingGPT、InternGPT、ViperGPT、ControlLLM和GPT4Tool，试图将多样化的模态API与LLMs集成，以完成开放世界中的复杂任务，如图像编辑、视频处理和音频合成。这些方法允许语言模型通过遵循自然语言指令来执行复杂的现实世界任务。同时，其他研究计划，如Camel、AutoGPT、MetaGPT和小村庄，调查了LLMs在角色扮演对话或交流游戏的背景下的效用。此外，在体现AI领域，像PaLM-E、EmbodiedGPT和RT系列这样的工作利用LLMs生成自然语言动作，从而控制精通在现实或3D环境中执行导航、操纵和交互任务的体现代理。这些工作展示了LLMs在智能代理控制领域取得的显著进展。

2.3自动驾驶模型

自动驾驶（AD）模型的发展近年来加速，产生了许多颠覆性和开创性技术。特别是，像Apollo和Autoware这样的开源框架发挥了关键作用，提供了强大的工具和资源，促进了自动驾驶技术的发展，并促进了其广泛采用和进步。在AD感知方面，BEV（鸟瞰图）和Occupancy Network已成为自动驾驶车辆的重要组成部分，帮助它们更好地理解周围环境并做出相应决策。传统自动驾驶系统中的决策过程通常依赖于有限状态机。这些系统通常需要手动创建大量规则来确定状态和它们之间的转换条件。然而，考虑到世界的不断变化，这通常是费力的设计规则以涵盖现实世界的所有场景。近年来，端到端自动驾驶模型也取得了显著进展，如UniAD，它采用了一种新颖的端到端方法，直接集成了感知、预测和规划，避免了传统模块化设计方法中的信息丢失和效率问题。最近，开源模拟器被提出来弥合模型预测和闭环控制之间的差距。其中，CARLA以其全面的传感器模拟和现实环境，成为评估许多最先进方法的闭环性能的最广泛使用的基准。最近的工作改变了我们对引入LLM进行驾驶规划的看法，为自动驾驶领域开辟了新的方向。作为早期探索，一些使用ChatGPT和GPT4来预测驾驶决策。随后的工作微调LLM模型以预测驾驶信号、轨迹或设计的决策空间，仅以语言作为输入。DriveGPT4微调多模态LLM以预测控制信号。然而，DriveGPT4受到单目摄像头输入的限制，限制了其构建全面场景信息的能力。上述所有基于LLM的工作都没有在现实模拟器中进行闭环驾驶的评估，因为LLM的语言决策很难转化为实际可靠的控制信号，或者LLM直接预测控制信号与实时闭环驾驶之间仍然存在很大差距。

3. 提出的方法

DriveMLM框架将大型语言模型（LLMs）的世界知识和推理能力整合到自动驾驶（AD）系统中，实现在现实模拟器中的闭环驾驶。如图3所示，该框架有三个关键设计：(1) 行为规划状态对齐。这部分将LLM的语言决策输出与成熟的模块化AD系统（如Apollo）的行为规划模块的决策状态对齐。这样，LLM的输出可以很容易地转换为车辆控制信号。(2) MLLM规划器。它由多模态分词器和多模态LLM（MLLM）解码器组成。多模态分词器将多种输入如多视图图像、激光雷达、交通规则和用户需求转换为统一的标记，MLLM解码器根据统一的标记做出决策。(3) 高效的数据收集策略。它引入了一种量身定制的数据收集方法，用于基于LLM的自动驾驶，确保全面的数据集包含决策状态、决策解释和用户命令。

在推理过程中，DriveMLM框架利用多模态数据进行驾驶决策。这些数据包括：多视图图像 $\in \mathbb{R}^{T \times N_I \times H \times W \times 3}$ ，其中 $T$ 表示时间长度， $N_I$ 表示视图数量， $H$ 和 $W$ 分别表示图像的高度和宽度。来自激光雷达点云的点云 $\in \mathbb{R}^{K \times 4}$ ，其中 $K$ 表示点的数量。系统消息 $\in \mathbb{R}^{N_M}$ ，其中 $N_M$ 表示系统消息标记的数量。系统消息是任务定义、交通规则和决策状态定义的集合。用户指令 $\in \mathbb{R}^{N_U}$ ，其中 $N_U$ 代表用户指令标记的数量。这些输入通过多模态分词器进行标记化，得到： $X_I \in \mathbb{R}^{N_I \times N_Q \times D}$ ， $X_L \in \mathbb{R}^{N_Q \times D}$ ， $X_M \in \mathbb{R}^{N_M \times D}$ ， $X_U \in \mathbb{R}^{N_U \times D}$ ，分别代表多视图图像、激光雷达点云、交通规则和用户指令的标记嵌入。这里， $N_Q$ 表示输出标记的数量，由 $QF or m er$ 的查询数量决定，每个标记嵌入的维度为 $D$ 。接下来，这些标记被输入到MLLM解码器中，生成决策状态标记 $S$ 以及相应的解释 $E$ 。最后，决策状态 $S$ 被输入到运动规划和控制模块中。该模块计算车辆控制的最终轨迹。

3.1. 系统概述

3.2. 行为规划状态对齐

将大型语言模型（LLMs）的语言选择转换为可操作的控制信号对车辆控制至关重要。为了实现这一点，我们将LLM的输出与流行的Apollo系统中行为规划模块的决策状态对齐。按照常见做法，我们将决策过程分为两类：速度决策和路径决策。具体来说，速度决策状态包括[KEEP, ACCELERATE, DECELERATE, STOP]，而路径决策状态包括[FOLLOW, LEFT CHANGE, RIGHT CHANGE, LEFT BORROW, RIGHT BORROW]。为了使语言模型能够精确预测这些状态，我们建立了语言描述和决策状态之间的全面链接，如图3中的系统消息所示。这种关联作为系统消息的一部分，并集成到MLLM规划器中。因此，一旦LLM描述了某些情况，预测将收敛为决策空间内的明确决策。每次都会相互推断出一个速度决策和一个路径决策，并发送到运动规划框架。

3.3. MLLM规划器

DriveMLM的MLLM规划器由两个组件组成：多模态分词器和MLLM解码器。这两个组件紧密协作，处理各种输入以准确确定驾驶决策并为这些决策提供解释。多模态分词器。这个分词器设计用于高效处理各种形式的输入：(1) 对于时间多视图图像：我们使用时间QFormer处理从时间戳−T到0（当前时间戳）的多视图图像。首先，它在时间戳−T取每个视图 $I^{-T}_i$ 并将其输入到ViT-g和QFormer的NQ个随机初始化的查询D维度。这产生了图像标记嵌入 $X_{I^{-T}_i} \in \mathbb{R}^{N_Q \times D}$ 。然后，使用图像标记嵌入 $X^{-T}_Ii$ 作为QFormer的查询，我们通过再次执行第一步来获得下一个时间戳的图像标记嵌入 $X_{I^{-T+1}_i}$ 。我们重复这两个步骤，直到我们获得当前时间戳的图像标记嵌入 $X_{Ii0}$ ，它收集了从−T到0的所有时间信息。这种方法避免了处理时间序列数据所需的资源随着时间长度的增加而线性增加。(2) 对于激光雷达数据，我们首先将点云作为输入发送到稀疏金字塔变换器（SPT）骨干网络以提取激光雷达特征。然后我们使用Qformer和M个随机初始化的查询D维度来获得点云标记嵌入 $X_L \in \mathbb{R}^{N_Q \times D}$ 。我们将其与图像标记嵌入连接。(3) 对于系统消息和用户指令，我们简单地将它们视为常规文本数据，并使用LLM的标记嵌入层来提取它们的嵌入， $X_M \in \mathbb{R}^{N_M \times D}$ ， $X_U \in \mathbb{R}^{N_U \times D}$ 。MLLM解码器。解码器是将标记化输入转换为决策状态和决策解释的核心。为此，我们为基于LLM的AD设计了一个系统消息模板，如表1所示。我们看到系统消息包含AD任务的描述、交通规则、决策状态的定义，以及指示每个模态信息整合的位置的占位符。这种方法确保了来自不同模态和来源的输入被无缝整合。输出格式提供决策状态（见表1的Q2）和决策解释（见表1的Q3），为决策过程提供了透明度和清晰度。关于监督方法，我们的框架使用下一个标记预测的交叉熵损失，遵循常见做法。通过这种方式，MLLM规划器可以执行对来自不同传感器和来源的数据的详细理解和处理，并将它们转换为适当的决策和解释。

3.4. 高效数据引擎

我们提出了一个数据生成管道，可以从CARLA模拟器中的各种场景创建决策状态和解释注释。这个管道可以解决现有驾驶数据的局限性，这些数据缺乏用于训练基于LLM的AD系统的决策状态和详细解释。我们的管道由两个主要组件组成：数据收集和数据注释。数据收集旨在提高决策多样性，同时保持现实性。首先，在模拟器中构建了各种具有挑战性的场景。需要复杂的驾驶行为才能安全地通过。然后，要求专家（无论是经验丰富的人类驾驶员还是代理）安全地通过这些场景，这些场景在许多可通过的位置之一随机触发。值得注意的是，当专家随机提出驾驶需求并相应地驾驶时，会产生交互数据。一旦专家安全地到达目的地，就会记录数据。数据注释主要关注决策和解释。首先，基于专家的驾驶轨迹，使用手工制作的规则自动注释速度和路径决策状态。其次，解释注释首先根据当前附近元素动态定义的场景生成。第三，由人类注释者完善生成的解释注释，并通过GPT-3.5扩展其多样性。此外，交互内容也由人类注释者完善，包括执行或拒绝人类请求的情况。通过这种方式，我们避免了逐帧决策状态注释的高成本，以及从头开始手动编写解释注释的高成本，大大加快了我们的数据注释过程。

4. 实验

4.1 数据分析

我们收集了280小时的驾驶数据进行训练。这些数据包括在CARLA的8个地图（Town01, Town02, Town03, Town04, Town06, Town07, Town10HD, Town12）中不同天气和光照条件下的50k条路线。平均每张地图上大约有200个触发点可以随机触发。每个场景都是驾驶中常见的或罕见的安全关键情况。这些场景的详细信息在补充材料中。对于每一帧，我们收集了来自前、后、左、右四个摄像头的图像，以及来自位于自车中心的激光雷达传感器的点云。我们收集的所有数据都有相应的解释和准确的决策，成功地驾驶通过场景。表2与以前设计用于自然语言驾驶理解的驾驶数据集进行了比较。我们的数据有两个独特的特征。第一是行为规划状态的对齐。这使我们能够将MLLM规划器的输出转换为控制信号，以便我们的框架可以在闭环驾驶中控制车辆。第二是人际交互注释。它的特点是人类给出的自然语言指令以及相应的响应决策和解释。目标是提高对人类指令的理解和相应能力。

4.2 实施细节

我们的MLLM模型是基于LLaMA构建的。具体来说，我们使用EVA-CLIP的ViT-g/14作为视觉编码器，使用LLaMA-7B作为LLM。应用了带有NQ个查询的查询变换器来从ViT提取图像标记，其中我们设置NQ = 32。对于激光雷达编码器，我们使用在ONCE上微调的GD-MAE模型。基于预训练的哈士奇模型，我们使用指令跟随数据训练MLLM。我们使用AdamW优化器，其中 $\beta_1 = 0.9$ ， $\beta_2 = 0.95$ ，并使用余弦学习率衰减，学习率为 $\times 10^{-5}$ 。训练周期为2，批量大小为256。我们训练QFormer和LLM以确保LLM的指令跟随能力，以便我们可以获得预定格式的路径决策和速度决策。MLLM的图像输入分辨率设置为448 $\times$ 448。为了评估闭环驾驶性能，我们使用广泛使用的Town05Long基准，遵循先前的工作。值得注意的是Town05不在我们的训练数据中。我们使用驾驶得分（DS）、路线完成率（RC）和违规得分（IS）作为指标。RC计算代理完成的路线的平均百分比。IS衡量违规处罚，范围在0到1之间，包括碰撞和违反交通规则。请注意，IS仅在路线的完成部分上计算。DS是三个指标中的核心，是RC和IS的乘积。我们还使用干预里程（MPI）评估驾驶性能，这是工业中广泛使用的指标。它计算为总行驶距离除以总的人工接管次数。如果自车违反交通规则或发生碰撞，它将被接管，并在安全位置继续自动驾驶，直到到达目的地。与在某些条件下终止路线的DS不同，MPI要求自车完成整个路线。
在这里插入图片描述

4.3 闭环驾驶评估

我们在CARLA中评估闭环驾驶，这是目前最广泛使用和现实的模拟基准。包括能够在CARLA中执行闭环驾驶的最新方法在内，用于性能比较。开源的Apollo也作为基线在CARLA中评估。除了我们的，还没有其他基于LLM的方法显示出准备部署和评估的准备。所有方法都在Town05长基准上评估。表4显示了驾驶得分、路线完成率和违规得分。值得注意的是，尽管Apollo是一种基于规则的方法，但其性能几乎与最新的端到端方法持平。DriveMLM在驾驶得分上超越了所有其他方法。这表明DriveMLM更擅长处理状态转换，安全地驾驶困难案例。表4的最后一列展示了MPI评估的结果。这个指标显示了更全面的驾驶性能，因为代理需要完成所有路线。换句话说，测试代理沿途遇到了所有情况。Thinktwice的DS更好，但MPI低于Interfuser，因为它经常越过停车线。然而，CARLA对这种行为的处罚很小。相比之下，MPI将每次违反交通规则视为一次接管。DriveMLM还实现了所有其他方法中最高的MPI，表明其避免更多情况的能力，提供更安全的驾驶体验。

4.4 驾驶知识评估

我们采用开环评估来评估驾驶知识，包括决策预测和解释预测任务。表3显示了预测决策对的准确性、每种类型的决策的F1分数用于决策预测，以及BLEU-4、CIDEr和METEOR用于预测解释。对于Apollo，手动收集的Town05上的场景被重新播放作为模型的输入。在重放的每个时间戳，保存模型的状态和输出作为预测以进行度量计算。对于其他方法，我们为它们提供相应的图像作为输入和适当的提示。通过将模型预测与我们手动收集的真实值进行比较，准确性揭示了决策的正确性和与人类行为的相似性，而F1分数则展示了每种类型的路径和速度决策的决策能力。DriveMLM实现了最高的整体准确性，超过了LLaVA的准确性40.97%。与Apollo基线相比，DriveMLM的更高F1分数表明，它在解决各种道路情况方面比基于规则的状态机更有效。LLaVA、InstructBLIP和我们提出的DriveMLM可以以问答形式输出决策的解释。在BLEU-4、CIDEr和METEOR方面，DriveMLM可以实现最佳性能，表明DriveMLM可以为决策提供最合理的解释。

4.5 消融研究

4.5.1 传感器模态影响

表5展示了不同输入传感器模态对DriveMLM的影响。多视图（MV）图像在路径和速度F1分数上都带来了显著的性能提升，并使准确性提高了18.19%。与直接连接时间标记相比，时间QFormer在确保多模态决策能力的同时，带来了更大的7.4%改进，这导致速度决策的平均F1分数提高了0.05。点云并未显示出提升性能的能力。

4.5.2 时序模块设计

我们提出了时间QFormer模块来处理时间多视图图像。一个简单而天真的设计是直接将查询标记连接到时间上，生成 $N_{tq} = T \times N_I \times N_Q$ 个标记作为LLM输入。但是 $N_{tq}$ 随着T的增加而增加，导致计算成本大增。相反，我们提出了时间QFormer模块来分别处理每个视图的时间图像，为LLM输入生成 $N_I \times N_Q$ 个标记。表5中的时序模块比较表明，我们的时间模块设计具有更少的图像标记，并且性能更好。我们在实验中默认设置 $T = 2$ 。

4.6 案例研究与可视化

4.6.1 人际交互

图4提供了如何通过人类指令实现车辆控制的示例。控制过程涉及分析道路条件、做出决策选择和提供解释性陈述。当给出相同的“超车”指令时，DriveMLM会根据当前交通条件的分析做出不同的响应。在右侧车道被占用且左侧车道可用的情况下，系统选择从左侧超车。然而，在给定的指令可能造成危险的情况下，例如当所有车道都被占用时，DriveMLM选择不执行超车操作，并做出适当的响应。在这种情况下，DriveMLM充当人车交互的接口，根据交通动态评估指令的合理性，并确保其符合预定义的规则，最终选择行动方案。

4.6.2 在真实场景中的表现

我们将DriveMLM应用于nuScenes数据集，测试开发的驾驶系统零样本表现。我们注释了验证集上的6,019帧，零样本决策准确性为0.395。图5展示了两个真实驾驶场景的结果，表明了DriveMLM的泛化能力。

5. 结论

在这项工作中，我们提出了DriveMLM，这是一个新颖的框架，它利用大型语言模型（LLMs）进行自动驾驶（AD）。DriveMLM可以通过使用多模态大型语言模型（MLLM）来模拟模块化AD系统的行为规划模块，在现实的模拟器中执行闭环自动驾驶。DriveMLM还能够为其驾驶决策生成自然语言解释，这可以增强AD系统的透明度和可信度。我们已经展示了DriveMLM在CARLA Town05 Long基准测试中优于Apollo基线的性能。我们相信，我们的工作可以激发更多关于LLMs和AD集成的研究。

个人理解：

自动驾驶的可解释归根结底是AI模型的可解释性。而可解释性研究的目标是什么呢？是给出一个决策结果的解释说明就结束了么？我个人认为并非如此。可解释性的目标一定是能够对模型本身起到“反哺”的作用。或者说帮助实现模型优化的闭环，发现模型存在的缺陷，改进模型。
该文中通过数据集的解释性标注呈现模型的可解释性，可这种解释无非还是用一个数据驱动的解释映射去解释模型的决策，解释模型本身都是不可解释的，似乎有点“隔靴搔痒”之感。
该研究的任务量是很大的，算力要求更不必多言。这让我不禁感叹高校学生是否能够有这样的资源去开展类似的研究，或许到大厂实习是不错的方式。
论文不是科研的最终目标。科研是探索未知和学习知识的过程中，自然而然的对探索过程的整理和归纳。