SafeMate:基于模型上下文协议的多模态应急准备代理

焦俊峰*a,Jihyung Park b{ }^{\mathrm{b}}b,许一鸣Xua\mathrm{Xu}^{\mathrm{a}}Xua,露西·阿特金森 c{ }^{\mathrm{c}}c
a{ }^{a}a 德克萨斯大学奥斯汀分校建筑系
b{ }^{b}b 德克萨斯大学奥斯汀分校计算机科学系
c{ }^{c}c 德克萨斯大学奥斯汀分校广告与公共关系系

摘要

尽管有大量公共安全文件和应急协议,但大多数人在危机期间仍无法有效解读和执行此类信息。传统的应急决策支持系统(EDSS)专为专业人士设计,严重依赖静态文档,如PDF或标准操作程序(SOP),这些对非专业人员来说在压力下难以导航。这种机构知识与公众可及性之间的差距对有效的应急准备和响应构成了关键障碍。

我们介绍了SafeMate,这是一款基于检索增强的人工智能助手,它为普通用户在应急准备和实际紧急情况下提供准确、上下文感知的指导。SafeMate基于模型上下文协议(MCP),动态将用户查询路由到文档检索、清单生成和结构化摘要生成工具中。它使用FAISS和余弦相似度从CDC、FEMA和SOHA等可信来源识别相关内容。

关键词:应急准备,模型上下文协议,多模态代理,城市韧性,检索增强生成,SafeMate,工具增强型LLM

1. 引言

尽管城市基础设施取得了重大进展,但全球范围内的应急准备差异仍然普遍存在。在美国,只有12.3%的家庭报告拥有所有五种推荐的应急物品,包括水、手电筒和沟通计划,而不到25%的家庭认为自己对灾难做好了充分准备(Alrousan等人,2021)。在中国,行为研究表明,准备决策更多地受到培训获取和自我效能感的影响,而非仅仅风险感知(Liu和Zhang,2021)。这些发现共同揭示了准备的核心障碍并非缺乏物质资源,而是无法及时获取、解读和采取情境适当的行动信息。

这一挑战不仅限于个人。在COVID-19大流行期间,即使先进的医疗机构也难以提供更新且易于理解的应急协议,往往导致信息过载或误解(Ow和Lee,2020)。在低收入和中等收入国家,情况因通信基础设施薄弱、媒体传播碎片化和跨机构协调不力而更加复杂,这极大地限制了实时响应和长期社区准备(Abimbola等人,2023)。所有情境中的反复瓶颈不是硬件问题,而是信息的可发现性和可用性。

这些作者对本工作贡献相同
现有的应急决策支持系统(EDSS)主要针对专业人士,并通常依赖静态、基于文档的交付机制,例如PDF、网站或内部SOP手册(Zabihi等人,2023)(Cremen等人,2022)。这些工具要求用户在高压力情况下形成精确查询并解释领域特定指令。这给个人,尤其是那些缺乏正式培训的人带来了沉重的认知负担。此外,这些系统通常局限于单一领域(例如医疗保健或消防安全),缺乏在多学科紧急情况下的扩展性,如自然灾害与基础设施故障相结合的情况。
大型语言模型(LLMs)如GPT-4及其衍生产品已经在广泛的自然语言理解和生成任务中表现出卓越的能力(Raza等人,2025)(Odubola等人)。它们合成复杂信息、通过多步骤问题推理以及以对话格式与用户互动的能力为高风险应用(如应急管理)提供了转型潜力。理论上,LLMs可以作为一线数字助理,帮助公民通过实时、上下文敏感的指导来应对灾难。然而,尽管对AI用于危机响应的兴趣日益增加,但在应急准备中应用LLMs的研究仍处于探索阶段(Kaur等人,2024)。大多数现有部署集中在静态信息分发或灵活性和个性化有限的反应系统上。这一差距凸显了对如何可靠地将LLMs集成到应急响应工作流程中的研究需求,平衡准确性、可解释性和现实世界的可用性。

为了弥补这一差距,基于LLM的代理已成为连接大规模知识与以人为中心的决策制定的有前景接口(Xi等人,2025)(Han等人,2024)。与静态FAQ系统或固定移动应用程序不同,基于LLM构建的代理系统能够解析开放式的自然语言查询、管理多轮对话,并选择性调用外部工具,如地图API、网络搜索引擎或文档数据库。这些功能使代理特别适合于紧急情况,在这种情况下,用户可能不知道确切要问什么或在哪里查找。LLM代理可以通过在其响应中引用验证的知识库、对模糊问题进行澄清步骤以及以易消化的形式呈现多模态信息(如图表、地图、视频或结构化清单)来主动协助。

为了解决这些问题,我们引入了SafeMate,这是一种检索增强的多模态AI助手,旨在提高应急准备和响应能力。与传统EDSS或静态清单不同,SafeMate使用高级推理和知识检索方法提供适应性强、经过验证和结构化的输出。

SafeMate基于模块化代理架构构建,该架构由模型上下文协议(MCP)启用(Anthropic,2024)。MCP提供了一个框架,用于协调多个外部工具和服务——如文档检索器、地理空间数据库、公共准备知识库和搜索API——在一个共享的语义接口下。这种架构允许代理动态将查询路由到适当的工具,检索领域特定信息,并生成统一的、上下文敏感的响应。与单片式管道不同,这种模块化支持快速集成来自不同领域的新的知识源和工具,从法律准备指南到本地基础设施计划。

SafeMate核心推理引擎采用了一种增强形式的检索增强生成(RAG)(Lewis等人,2021),并结合了递归抽象处理树组织检索(RAPTOR)框架(Tay等人,2023)。SafeMate并未简单地将检索到的文档附加到提示中,而是使用基于树的抽象技术递归总结和聚类大型文档,然后再将其传递给语言模型。这种方法允许对灾难手册、应急剧本和响应模板等分层结构进行可扩展推理。因此,SafeMate不仅检索相关内容,还保留段落间的逻辑依赖和高层文档结构,从而生成更忠实且可解释的输出。
基于LLM的应急工具的一个重大风险是产生幻觉——自信地陈述但错误的信息。为缓解此问题,SafeMate利用OpenAI的o3-mini-high模型,该模型报告的幻觉率在可用的开源权重模型中最低(0.8%)(Vectara研究团队,2023)。除了模型选择外,SafeMate通过重新验证其检索到的每个答案来进行双重验证。如果模型生成的响应缺乏足够的检索知识库依据,则会被标记或拒绝。这种机制确保响应与权威标准保持一致,并提高了高风险环境中的可信度。

SafeMate不仅适用于活跃危机支持,还适用于积极的教育用途。它可以生成定制的准备清单,模拟训练目的的紧急情景,并根据不断变化的风险(如极端天气预报、基础设施中断、社区级别准备)提供预先建议。通过将准备视为持续的个性化对话,而不是一次性清单,SafeMate增强了长期的行为准备。

本文介绍了SafeMate的技术架构、检索策略和幻觉控制机制。我们在多个模拟紧急情景中评估其性能,重点关注相关性、可解释性和事实一致性,并将其与领先的基础系统(如E-KELL(Chen等人,2023))进行比较。我们的研究结果表明,SafeMate显著提高了向非专业用户交付应急信息的精确性、适应性和可访问性。

2. 相关工作

2.1. 传统应急支持系统的局限性

传统的应急决策支持系统(EDSS)通常依赖于静态、以文档为中心的格式,如PDF手册、公共网络门户和机构特定的应急剧本。这些系统假设用户通常是专业人士,可以在时间压力下解释领域特定程序(Sköld Gustafsson等人,2024)。然而,即使是经过培训的人员在高压力情况下也面临导航这些格式的挑战。更重要的是,公众往往缺乏从这些文档中识别相关程序的专业知识,更不用说将其转化为及时行动。

最近的研究强调,公众应急响应的核心障碍并非信息的可用性,而是发现、理解和应用信息的认知负担。Stone等人(Stone,2019)证明,缺乏结构化、实时指导的临床分流系统会导致急诊科更高的错误率。此外,正如新冠疫情期间所显示的,集中分发静态文档经常导致信息过载和解释不一致(Ow和Lee,2020)。这突显了需要主动支持用户解释和情境化关键应急指令的系统,而不是被动地展示原始内容。

2.2. 基于检索的生成和LLM的推理

基于检索的生成(RAG)已经成为一种基础方法,通过允许大型语言模型(LLM)以外部知识源为条件来扩展其功能。与传统的微调不同,RAG使LLM能够在推理时纳入最新和领域特定的信息。这对于动态或高风险领域(如应急响应)尤为重要,因为在这些领域中,模型必须紧密遵循权威来源。
在标准RAG基础上,RAPTOR提出了一种树形结构的总结框架,递归地从文本片段中抽象出长文档。这种层次化设计使LLM能够跨多个抽象层次维持上下文和逻辑连贯性。它特别适用于对多节法规、手册或多方事件报告等深度结构化来源进行推理。

另一个近期的进展是验证链(CoVe)(Scialom等人,2023),它通过提示模型使用检索到的证据验证自己的答案来减少幻觉。模型不会接受第一次生成的响应,而是基于支持文档迭代地重新评估其主张。这是在事实准确性不可妥协的领域至关重要的。RAPTOR和CoVe都展示了结合结构化检索与反思推理的重要性,这是SafeMate设计哲学的基础。

2.3. E-KELL和紧急情况中的结构化知识推理

E-KELL(Chen等人,2023)是最早将结构化知识与LLM推理整合到紧急领域中的系统之一。它从政府发布的应急手册中构建知识图谱(KG),并将这些图谱编码为基于三元组的路径,以提示语言模型。通过引导模型通过法律和程序链,E-KELL确保生成的响应与国家标准化协议保持一致。

E-KELL的优势在于其逻辑可解释性。每个输出都可以通过一系列KG节点追溯,提供透明性和可审计性——在涉及风险或监管的领域中必不可少的特征。然而,这种方法在实践中存在几个局限性。首先,手工策划的三元组的使用引入了刚性,使其难以跨语言、地区或紧急类型扩展。其次,E-KELL主要面向专业响应者,未设计用于与普通人交互或快速适应不熟悉的情况。最后,其架构缺乏模块化,阻止与外部工具或跨领域知识服务的集成。

SafeMate通过用多源领域工具的动态检索取代静态KG遍历,并设计适合训练和未训练用户的输出,解决了这些局限性。与脚本固定的逻辑路径不同,SafeMate通过模块化、工具集成的代理界面实现上下文敏感的导航。

2.4. 大型语言模型在跨领域的应用

虽然LLM在应急环境中的应用相对较新,但它们在其他关键领域的成功提供了有价值的先例。在医疗保健领域,大型模型已展现出患者教育、诊断解释和临床指南总结的能力(Lee等人,2024;Singhal等人,2024)。这些系统不仅提高了医疗信息的获取,还通过平实语言改写和上下文感知交付增强了非专家用户的理解。

法律领域也出现了类似的整合,其中LLM协助案例检索、法律总结和合同起草(Chen等人,2024;Meyer和Klein,2024)。模型越来越多地被设计为符合结构化法律框架,输出可追溯至法定或基于判例的来源。这些与应急响应的平行——特别是对可解释、依法为基础的输出的需求——展示了LLM对高风险、规则治理环境的适应性。

在教育领域,LLM用于自适应辅导、自动评分和课程对齐(Zhang等人,2024)。虽然教学目标不同,但基本要求保持不变:清晰、正确和个人化。SafeMate从中吸取教训
通过根据情境需求、用户理解和准备水平量身定制应急输出。

在这些领域中,一个明确的见解浮现出来:当与结构化推理、外部验证和模块化扩展性结合时,基于LLM的系统能够实现更大的可靠性和影响——这是SafeMate设计中体现的核心原则。

3. 方法论

3.1. 系统架构概述

SafeMate系统被设计为一个模块化的应急准备和响应助手。其架构集成了几个关键组件,包括由MCP驱动的代理框架、基于矢量的语义搜索引擎和后处理以生成多模态输出。该系统旨在灵活处理结构化知识(例如清单、法规文件)和非结构化文本(例如手册、用户查询),实现实时高质量、上下文感知的响应。
img-0.jpeg

图1:SafeMate架构概览。
如图1所示,SafeMate系统围绕一个模块化架构组织,其中心是一个LLM,并通过模型上下文协议(MCP)进行协调。MCP客户端层使用LangChain和LangGraph管理语言模型与外部工具之间的交互。它调用基于FAISS的检索,覆盖嵌入式知识库以获取静态信息,并通过LangChain MCP适配器路由动态工具调用——例如YouTube搜索、Google Maps渲染或天气API。这些工具通过MCP服务器基础设施(如Smithery)访问。FastAPI后端将LLM代理暴露给用户,并通过Web和地理空间接口促进请求。响应管道最终由LLM组成一个多模态、上下文感知的输出,基于检索到的文档并由工具增强。

3.2. 模型上下文协议(MCP)

为了促进SafeMate客户端和服务器组件之间的无缝集成,我们采用了MCP。MCP是一种开放标准,允许AI助手通过标准化接口与外部工具和API通信。该架构包含两个主要组件:MCP客户端和MCP服务器。

嵌入在SafeMate应用程序中的MCP客户端会制定结构化请求,封装用户的意图、上下文和任何相关约束。这些请求传输到MCP服务器,后者充当中介,与各种数据源和工具接口以检索相关信息。服务器处理客户端的请求,访问必要的资源,并返回一个结构化的响应,客户端可以利用该响应生成上下文适当的输出。

这种模块化设计允许灵活性和可扩展性。通过解耦客户端和服务器功能,MCP确保对一个组件的更新或修改不需要改变另一个组件。此外,这种架构支持多样数据源的集成,包括实时数据库、静态文档和第三方API,从而增强系统对各种应急场景的适应能力。

3.3. 低幻觉语言模型:o3-mini

在应急响应应用中,信息的准确性至关重要。为尽量减少生成不正确或误导性内容的风险,我们选择了OpenAI的o3-mini语言模型用于SafeMate。根据Vectara的Hughes幻觉评估模型的评估,o3-mini表现出0.8%的幻觉率,优于其他模型如40(1.4%)和DeepSeek r1(14.3%)。

o3-mini较低的幻觉率可归因于其优化的训练方案,该方案强调事实一致性和上下文相关性。通过利用该模型,SafeMate确保生成的响应不仅上下文适当,而且基于准确的信息。这种可靠性在用户依赖系统提供关键指导的高风险情况下尤为重要。

3.4. 使用FAISS的矢量相似性搜索

从广泛的知识库中高效检索相关信息对于及时和准确的响应至关重要。为此,SafeMate采用Facebook AI Similarity Search(FAISS),这是一个专为高效相似性搜索和密集向量聚类设计的库(Douze等人,2025)。

FAISS使用余弦相似度作为其距离度量,该度量测量多维空间中两个非零向量之间角度的余弦值。向量(A)(\mathbf{A})(A)(B)(\mathbf{B})(B)之间的余弦相似度计算如下:

cosine⁡_similarity⁡(A,B)=A⋅B∥A∥∥B∥=∑i=1nAiBi∑i=1nAi2⋅∑i=1nBi2 \operatorname{cosine} \_ \operatorname{similarity}(\mathbf{A}, \mathbf{B})=\frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\|\|\mathbf{B}\|}=\frac{\sum_{i=1}^{n} A_{i} B_{i}}{\sqrt{\sum_{i=1}^{n} A_{i}^{2}} \cdot \sqrt{\sum_{i=1}^{n} B_{i}^{2}}} cosine_similarity(A,B)=A∥∥BAB=i=1nAi2i=1nBi2i=1nAiBi

该度量特别适用于高维、稀疏数据,使其适合基于文本的文档检索任务。通过将文档和查询表示为共享嵌入空间中的向量,FAISS能够快速识别语义相似的内容,从而在紧急情况下提供及时和相关的响应。

3.5. 基于权威来源的检索增强生成(RAG)

为了提高生成响应的准确性和可靠性,SafeMate集成了一个检索增强生成(RAG)框架,该框架结合了疾病控制与预防中心(CDC)、医院管理员协会(SOHA)和联邦应急管理署(FEMA)等权威来源的信息。

RAG过程包括根据用户的查询和上下文从这些可信来源中检索相关文档或摘录。这些检索到的文本随后用于调节语言模型的生成过程,确保输出基于验证的信息。这种方法不仅提高了响应的事实准确性,还向用户提供原始来源的参考,从而增强透明度和信任。

3.6. 基于RAPTOR的分层检索

img-1.jpeg

图2:RAPTOR处理细节。

为了有效地管理和检索来自广泛和复杂的应急文档的信息,SafeMate集成了RAPTOR框架。RAPTOR通过递归嵌入、聚类和总结文本块构建分层树结构,实现多层次的抽象和高效的信息检索。

3.6.1. 文本块划分和嵌入

该过程首先将文档分割成较小、易于管理的块,通常每个块大约100个令牌。然后使用Sentence-BERT(SBERT)模型将这些块转换为密集向量表示,捕捉每个文本段的语义意义。所得嵌入作为分层树的基础元素(叶节点)。

3.6.2. 维度降低和聚类

为了降低计算复杂度并减轻维度诅咒,我们对SBERT嵌入应用均匀流形逼近和投影(UMAP)。UMAP基于邻域相似性构造高维图,并优化低维布局以保留该结构。

给定一组高维向量({x1,…,xN})(\left\{\mathbf{x}_{1}, \ldots, \mathbf{x}_{N}\right\})({x1,,xN}),UMAP首先通过条件概率定义模糊拓扑结构:

pij=exp⁡(−∥xi−xj∥2σi) p_{i j}=\exp \left(-\frac{\left\|\mathbf{x}_{i}-\mathbf{x}_{j}\right\|^{2}}{\sigma_{i}}\right) pij=exp(σixixj2)
在低维空间中,构造相应的分布(qij)(q_{i j})(qij)使用:

qij=(1+a∥yi−yj∥2b)−1 q_{i j}=\left(1+a\left\|\mathbf{y}_{i}-\mathbf{y}_{j}\right\|^{2 b}\right)^{-1} qij=(1+ayiyj2b)1

然后优化每个高维点(xi)(\mathbf{x}_{i})(xi)的嵌入(yi∈Rd)(\mathbf{y}_{i} \in \mathbb{R}^{d})(yiRd),以最小化两个分布之间的交叉熵:

LUMAP=∑i≠j(pijlog⁡pijqij+(1−pij)log⁡1−pij1−qij) \mathcal{L}_{\mathrm{UMAP}}=\sum_{i \neq j}\left(p_{i j} \log \frac{p_{i j}}{q_{i j}}+\left(1-p_{i j}\right) \log \frac{1-p_{i j}}{1-q_{i j}}\right) LUMAP=i=j(pijlogqijpij+(1pij)log1qij1pij)

这使得低维表示能够忠实地保留嵌入空间中的局部结构,这对后续步骤中通过GMM进行有意义的语义聚类至关重要。

随后,使用高斯混合模型(GMM)对降维后的嵌入进行聚类。GMM假设数据是从若干高斯分布的混合中生成的,允许软聚类,其中每个数据点可以属于多个聚类,具有不同的概率。这对文本数据特别有益,因为一个文本块可能涉及多个主题。

p(xi)=∑k=1KπkN(xi∣μk,Σk) p\left(\mathbf{x}_{i}\right)=\sum_{k=1}^{K} \pi_{k} \mathcal{N}\left(\mathbf{x}_{i} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right) p(xi)=k=1KπkN(xiμk,Σk)

其中(πk)(\pi_{k})(πk)是混合权重((∑kπk=1))(\left(\sum_{k} \pi_{k}=1\right))((kπk=1))(N(⋅∣μk,Σk))(\mathcal{N}\left(\cdot \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right))(N(μk,Σk))表示均值为(μk)(\boldsymbol{\mu}_{k})(μk)和协方差为(Σk)(\boldsymbol{\Sigma}_{k})(Σk)的多元高斯。每个文本块通过后验概率(p(zk∣xi))(p\left(z_{k} \mid \mathbf{x}_{i}\right))(p(zkxi))软分配到聚类,实现主题间的重叠语义。

为了确定最佳聚类数(K)(K)(K),应用贝叶斯信息准则(BIC)。BIC平衡模型拟合和复杂性,惩罚不必要的聚类。BIC计算如下:

BIC=ln⁡(N)⋅k−2⋅ln⁡(L^) \mathrm{BIC}=\ln (N) \cdot k-2 \cdot \ln (\hat{L}) BIC=ln(N)k2ln(L^)

其中(N)(N)(N)是数据点的数量,(k)(k)(k)是模型中的参数数量,(L^)(\hat{L})(L^)是模型似然函数的最大值。

3.6.3. 递归总结

每个文本块聚类随后使用抽象语言模型进行总结。在SafeMate中,我们使用OpenAI的GPT-4.1(OpenAI,2024)完成此任务,这也是下游响应生成使用的同一模型。这种设计选择确保中间总结过程和最终面向用户的输出之间的语言和语义一致性。通过使用统一模型,我们减少了递归抽象层间表示漂移的风险。

总结涵盖了各自聚类的关键信息,并成为层次结构中父节点的内容。这些总结使用相同的编码器重新嵌入,并递归应用嵌入-聚类-总结周期。这个递归过程继续,直到整个文档被表示为各个语义层次上的紧凑抽象总结层次结构。

3.6.4. 信息检索

在推理过程中,SafeMate可以采用两种检索策略:

  • 树遍历:此方法涉及从根开始遍历树,在每一级基于查询嵌入与树节点的余弦相似度选择最相关的节点,并汇总选定路径上的信息。
    • 压缩树检索:在此方法中,同时考虑树中的所有节点,并选择与查询最相似的前k个节点,而不考虑它们在层次结构中的位置。这种方法由于其灵活性,通常能更好地捕获不同抽象层次的相关信息。
      通过集成RAPTOR,SafeMate增强了处理和检索来自大规模、复杂文档信息的能力,为用户提供准确和情境相关的应急准备和响应响应。

4. 实验

为了评估SafeMate在提供准确和基于证据的应急指导方面的表现,我们构建了一个包含100个应急准备问题的基准测试。每个问题都配有一个基于CDC、FEMA和OSHA等可信来源得出的真实答案。

4.1. 评估和验证

img-2.jpeg

图3:GPT作为评估者。

4.1.1. 评估设置

图3展示了我们的评估框架,其中GPT作为一个自动化评估者来评估SafeMate生成响应的质量。给定一个包含结构化元信息(例如灾害类型、时间、地点)和支持文档的应急背景,生成模块合成一个问题和相应的答案。SafeMate然后生成对同一个问题的响应。这两个响应都传递给一个基于LLM的评估者(例如GPT-4),评估者根据五个维度对输出进行评分:正确性、基于证据、完整性、相关性和流畅性。这种评估循环实现了可扩展、一致和多标准的SafeMate响应质量评估,特别是在人工评估成本高昂或不可行的情况下。

我们比较了三个系统:

  • SafeMate(我们的系统):基于MCP的RAG代理,包含RAPTOR和o3-mini-high。
    • GPT-4o:OpenAI最新的通用LLM,无检索功能。
    • GPT-3.5:成本效益高的基线LLM。
      每个模型的答案都由GPT-4根据五个标准进行评估:正确性、基于证据、完整性、相关性和流畅性(评分范围为0-5)。

正确性指的是响应的事实准确性。基于证据衡量答案是否由检索到的或提供的证据支持。完整性评估问题的所有方面是否得到了充分解决。相关性评估内容是否专注于用户的查询。流畅性涉及响应的语法正确性、清晰性和连贯性。每个标准的评分范围为0-5,分数越高表示表现越好。

模型正确性基于证据完整性相关性流畅性
SafeMate(我们的系统)4.74\mathbf{4 . 7 4}4.744.12\mathbf{4 . 1 2}4.124.38\mathbf{4 . 3 8}4.384.92\mathbf{4 . 9 2}4.925.00\mathbf{5 . 0 0}5.00
GPT-4o4.732.804.364.925.00
GPT-3.54.422.443.764.845.00

表1:100个样本的平均评估得分。

4.2. 分析

正确性和完整性… 所有模型都达到了较高的正确性,但SafeMate得分略高于GPT-4o(4.74 vs 4.73),并且明显优于GPT-3.5(4.42)。在完整性方面,SafeMate提供了更详尽的答案,这可能是由于其通过RAPTOR进行的结构化总结和文档抽象。

基于证据和抗幻觉… SafeMate在基于证据方面表现出明显优势,得分为4.12,远高于GPT-4o(2.80)和GPT-3.5(2.44)。这反映了SafeMate使用经过验证的知识和基于检索的双重检查,防止生成虚构内容。手动检查确认SafeMate的响应始终引用政策或协议的原文或改写形式。

相关性和流畅性… 所有模型在流畅性和相关性方面的表现相似,表明LLM在维持表面级别的响应质量方面表现出色。然而,只有SafeMate确保流畅的响应也基于经过验证的知识。

SafeMate在提供可靠的、完整的和基于文档的应急指导响应方面表现出色。其检索增强结构和抗幻觉设计使其特别适合于公共安全和准备应用,在这些应用中事实准确性至关重要。

4.3. 案例研究

为了评估SafeMate的实际效果,我们介绍了一个模拟真实世界应急场景的案例研究:住宅区发生化学品泄漏,需要立即公众响应。选择此场景是因为其复杂性、高风险以及非专家在这种情况下难以获取准确、可操作信息的典型困难。

4.3.1. 场景概述

字段内容
用户查询我家附近发生了化学品泄漏。我应该待在室内并密封窗户吗?
检索来源FEMA - 你准备好了吗?(第38页,避难章节1.4)
SafeMate回答根据应急准备指南,如果您附近的社区发生化学品泄漏,最好的行动方案是立即遵循当地当局的指示。在许多化学品泄漏场景中,当局可能会建议居民就地避难。这通常意味着:
- 待在室内并关闭所有窗户和门。
- 关闭通风系统(空调、风扇或打开的窗户),以防污染空气进入。
- 密封任何外面空气可能渗入的缝隙(如果有塑料布和胶带可用的话)。
- 等待通过当地新闻或应急警报获得进一步指示。
记住,具体行动可能因涉及的化学物质和泄漏范围而异。听取当地应急服务或公共卫生官员的实时指导至关重要。立即待在室内并密封您的房屋可以帮助减少接触空气传播的污染物。

资料来源:知识库中的应急准备指南信息。

表2:SafeMate对化学品泄漏应急查询的响应。

表2展示了SafeMate对化学品泄漏场景的响应。该系统解释了用户的自然语言查询,从FEMA文件中检索协议特定的指导,并生成结构化的多步骤建议。与需要手动搜索静态文档的传统EDSS不同,SafeMate提供基于权威来源的可操作指导,格式简单,非专家用户可以立即理解。

4.3.2. 系统行为和RAG管道

接收到此查询后,SafeMate初始化一个MCP任务会话。客户端代理识别用户意图为“在危险材料暴露期间的就地避难指导”。服务器从CDC、SOHA和FEMA提供的经过验证的文档中编排检索。

使用FAISS与余弦相似度,系统从FEMA的危险品协议(2023)中检索出五个语义相似的片段,其中包括诸如“待在室内,关闭窗户”、“关闭HVAC系统”和“通过收音机听进一步指示”之类的指令。这些片段通过重叠的边界传递到RAG系统以保留上下文。然后通过基于RAPTOR的层次结构对这些片段进行总结,每层使用GPT-4.1进行一致的抽象。

4.4. 见解与局限性

该案例研究展示了SafeMate能够(1)从特定领域的协议中检索基于证据的、可操作信息,(2)通过分级响应结构确保清晰和完整,以及(3)通过双重检索检查和模型选择避免幻觉。然而,该场景也突出了对良好嵌入和预索引语料库的依赖。在文档覆盖率稀少的环境中,SafeMate的准确性可能会降低。

5. 局限性和未来工作

尽管SafeMate展示了基于LLM和工具增强代理在应急准备方面的潜力,但仍存在一些局限性。

SafeMate主要使用以美国为中心的应急指南(FEMA、CDC)进行测试。这限制了其在其他地区的适用性,除非纳入本地化的知识库。在未来的工作中,我们计划支持多语言KB和文化适应性响应。尽管检索准确性和基于证据的特性已经得到评估,但在真实的灾难演习或现场条件下的大规模用户测试仍是未来的工作。我们计划与市政应急办公室合作进行基于场景的评估,以量化其对决策速度和公众信任的影响。

我们计划在以下方向扩展SafeMate:(1)集成符号规划以实现更主动的响应工作流程,(2)扩展到多模态用户输入(如图像/视频),以及(3)在移动和离线优先环境中部署,以增强低连接区域的灾难恢复能力。

6. 伦理考量

SafeMate旨在通过提供基于证据和可操作的安全指导,帮助非专业用户在高风险应急情况下做出决策。然而,使用AI系统进行实时决策支持引发了一些必须解决的伦理问题,以确保负责任的部署。

首先,尽管SafeMate包含了幻觉缓解策略——包括使用o3-mini模型和通过检索证据进行双重检查——没有任何生成模型完全免于事实错误。对模糊查询的误读、依赖过时文档或边缘情况生成失败可能导致不当建议。为尽量减少潜在危害,所有输出都被明确标注为信息性的,而非具有法律或医学上的处方性质。

其次,尽管SafeMate依赖于CDC、FEMA和SOHA等经过验证的来源,应急协议可能因地区、机构和语言而异。一刀切的响应可能导致与地方指南的不匹配。我们建议SafeMate应与地方当局和本地化文档存储库合作部署,以确保情境适宜性。

第三,该系统目前假设用户具有互联网接入、设备熟练度和对AI生成建议的信任。这些假设可能排除弱势群体或加剧风险沟通中的现有不平等。缓解这一点需要包容性设计实践,以及可能的非数字或多语言交付模式。

最后,由于SafeMate影响用户在关键情境中的行为,问责制和可追溯性的问题变得至关重要。所有检索到的来源都在响应跟踪中记录并链接,模块化的MCP设计允许未来的审计和回退到有人参与的验证。

我们认识到应急AI系统不仅必须技术上稳健,还必须承担社会责任。通过识别这些挑战并将缓解策略整合到系统设计中,我们旨在确保SafeMate为公共应急准备的安全和平等未来做出贡献。

7. 结论

我们介绍了SafeMate,这是一种检索增强、工具集成的AI助手,旨在使应急准备和响应信息对公众更具可访问性、可靠性和可操作性。针对传统应急系统的主要局限性——即对静态文档、专业知识和实时可用性的依赖——SafeMate集成了包括模型上下文协议(MCP)、基于FAISS的相似性检索、RAPTOR风格的分层总结和低幻觉LLM在内的模块化组件。

通过结构化块划分、验证生成和任务的情境敏感路由,SafeMate提供了基于CDC、FEMA和SOHA等权威组织的响应。我们的化学品泄漏场景案例研究展示了SafeMate生成准确、人类可理解且符合规定的指导的能力,无论是在正确性还是清晰度上都优于非检索基线。

除了其技术设计,SafeMate还展示了在高风险情境中将机构知识与非专家用户需求相协调的可扩展范式。通过在同一管道中结合推理、检索和强大的语言建模,SafeMate朝着实用、值得信赖的公共安全AI系统迈出了一步。

未来工作将探索实时部署和与传感器或地理空间数据源的集成,以进一步提高SafeMate在多样化应急情境中的响应能力和情境感知能力。

生成AI和AI辅助技术在写作过程中的声明

在准备这项工作时,作者使用了ChatGPT 40以提高可读性和语言表达。在使用该工具/服务后,作者根据需要审查并编辑了内容,并对出版物的内容承担全部责任。

利益冲突声明

作者声明与本手稿无关的任何利益冲突。

参考文献

Abimbola, S., et al., 2023. 准备工作中的差距在LMICs期间新冠疫情:来自全球响应系统的经验教训。Global Public Health .

Alrousan, T., et al., 2021. 公众对灾难的准备:美国的经验研究。International Journal of Disaster Risk Reduction 55, 102096.

Anthropic, 2024. 引入模型上下文协议。URL: https://www.anthropic.com/ news/model-context-protocol. accessed: 2025-05-01.

Chen, L., Zhou, K., et al., 2024. 探讨大型语言模型与法律系统的结合点:调查。arXiv preprint arXiv:2404.00990 .
Chen, M., Tao, Z., Tang, W., Qin, T., Yang, R., Zhu, C., 2023. 使用知识图谱和大型语言模型增强应急决策。arXiv preprint arXiv:2311.08732

Cremen, G., Bozzoni, F., Pistorio, S., Galasso, C., 2022. 开发地震早期预警的基于风险的决策支持系统在关键海港的应用。Reliability Engineering & System Safety 218, 108035. URL: https://www.sciencedirect.com/science/article/pii/ S0951832021005421, doi:https://doi.org/10.1016/j.ress.2021.108035.

Douze, M., Guzhva, A., Deng, C., Johnson, J., Szilvasy, G., Mazaré, P.E., Lomeli, M., Hosseini, L., Jégou, H., 2025. FAISS库。URL: https://arxiv.org/abs/2401.08281, arXiv:2401.08281.

Han, S., Zhang, Q., Yao, Y., Jin, W., Xu, Z., He, C., 2024. LLM多代理系统:挑战和开放问题。arXiv preprint arXiv:2402.03578 .

Kaur, P., Kashyap, G.S., Kumar, A., Nafis, M.T., Kumar, S., Shokeen, V., 2024. 从文本到转型:大型语言模型多功能性的全面回顾。arXiv:2402.16142 .

Lee, J., Park, D., Choi, E., et al., 2024. 医疗大型语言模型调查:技术、应用、可信度和未来方向。arXiv preprint arXiv:2406.03712 .

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., tau Yih, W., Rocktäschel, T., Riedel, S., Kiela, D., 2021. 知识密集型NLP任务的检索增强生成。URL: https://arxiv.org/abs/2005.11401, arXiv:2005.11401.

Liu, B., Zhang, J., 2021. 影响中国城市灾难准备的因素:横断面研究。Natural Hazards 107, 1241-1263.

Meyer, J., Klein, J., 2024. 探索LLM在法律中的应用:当前法律NLP方法的文献综述,见:法律知识工程研讨会论文集。

Odubola, O., Adeyemi, T., Olajuwon, O., et al., . AI在社会公益中的应用:危机管理和灾难响应中的LLM驱动干预措施。J Artif Intell Mach Learn & Data Sci 2025 3, 2353-2360.

OpenAI, 2024. GPT-4.1系统卡片。https://openai.com/index/gpt-4-1. Accessed: 2025-04-22.
Ow, D., Lee, W., 2020. 新冠疫情期间医疗工作者对沟通的看法。Journal of Hospital Management 45, 211-220.

Raza, M., Jahangir, Z., Riaz, M.B., Saeed, M.J., Sattar, M.A., 2025. 大型语言模型的工业应用。Scientific Reports 15, 13755.

Scialom, T., Lewis, P., et al., 2023. 验证链减少大型语言模型中的幻觉。arXiv preprint arXiv:2309.11495 .

Singhal, K., Tu, T., et al., 2024. 医疗保健中的大型语言模型。arXiv preprint arXiv:2503.04748 .

Sköld Gustafsson, V., Andersson Granberg, T., Pilemalm, S., Waldemarsson, M., 2024. 应急响应多重自然灾害决策支持需求识别:活动理论方法。Natural Hazards 120, 2777-2802.
Stone, E.L., 2019. 应急部门中的临床决策支持系统:提高分流准确性的机会。Journal of Emergency Nursing 45, 220-222.

Tay, Y., Hou, L., et al., 2023. RAPTOR:递归抽象处理树组织检索。arXiv preprint arXiv:2306.11695 .

Vectara Research Team, 2023. 去伪存真:检测大型语言模型中的幻觉。URL: https://www.vectara.com/blog/ cut-the-bull-detecting-hallucinations-in-large-language-models. accessed: 2025-0422 .

Xi, Z., Chen, W., Guo, X., He, W., Ding, Y., Hong, B., Zhang, M., Wang, J., Jin, S., Zhou, E., et al., 2025. 大型语言模型代理的兴起与潜力:调查。Science China Information Sciences 68, 121101.

Zabihi, O., Siamaki, M., Gheibi, M., Akrami, M., Hajiaghaei-Keshteli, M., 2023. 一种用于洪水灾害管理的智能可持续系统,应用了人工智能和多准则决策计算。International Journal of Disaster Risk Reduction 84, 103470. URL: https://www.sciencedirect.com/science/article/pii/S2212420922006896, doi:https://doi.org/10.1016/j.ijdrr.2022.103470.

Zhang, L., Wang, L., et al., 2024. 教育领域的大型语言模型:调查与展望。arXiv preprint arXiv:2403.18105 .

参考论文:https://arxiv.org/pdf/2505.02306

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

新书《ChatBI核心技术》上市了!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值