大模型赋能，指标平台更懂你的数据

码农Q！

于 2025-04-09 16:35:32 发布

阅读量656

点赞数 29

文章标签： python 人工智能大数据 AIGC ai 算法开发语言

本文链接：https://blog.csdn.net/Q2024107/article/details/147096900

版权

传统的指标管理平台往往面临指标数据查询复杂、分析决策门槛高等挑战，难以满足企业快速、精准决策的需求。

为了让数据分析管理更智能，袋鼠云数栈指标管理平台结合大模型完成了智能化的升级，可以给数据分析的场景提供更强大、更高效的助力。大模型凭借其强大的自然语言理解能力和泛化能力，能够精准识别用户的查询意图、分析复杂数据、并能提供分析建议，与指标平台相结合大幅降低了数据分析的技术门槛。

接下来将带领大家展示指标平台的解析其中的功能及关键技术。

功能点展示

基于大模型，我们在指标平台上开发了智能机器人，可以通过自然语言对话的方式完成指标信息检索、指标走势查询、指标数据查询和指标归因分析。

1.1 指标检索

指标管理平台中传统检索指标的方式往往依赖关键字的匹配，这在海量指标市场中快速找到目标指标将是一个挑战，关键字的方式很难理解用户的实际需求，如果关键字不准确又很难匹配到目标指标。通过与大模型和 RAG 技术相结合，我们实现了可以通过自然语言进行检索的功能。

file

1.2 指标图表展示

将数据以图表的形式展示是数据分析中常见的方式，我们可以通过大模型的自然语言理解能力，识别出用户需要图表展示的意图，并通过对应的格式样式来展现。

file

1.3 指标数据查询

用户对指标数据的查询需求日益复杂化，传统的 SQL 查询方式对非技术用户门槛较高，而基于自然语言的查询（NLQ, Natural Language Query）能大大降低使用门槛，使业务人员能够更高效地获取所需的数据。基于大模型技术的数栈指标平台已经支持通过自然语言进行数据查询的功能。

file

1.4 指标归因分析

当指标出现异常波动时，找出背后的原因是解决问题的关键。传统的归因分析往往依赖于人工经验和手动排查，耗时费力且容易遗漏。通过与 AI 大模型的结合，指标平台提供了更加智能的归因分析功能。

file

技术解析

2.1 指标平台元数据向量化

file

指标平台的元数据包括指标 ID、指标名称、指标描述等等，当用户在指标平台上进行指标开发新建、更新时会触发指标信息向量化的流程。这一流程由我们的 AIWorks（AI 应用平台）提供的接口完成，主要包括以下几个核心步骤：关键字段提取：从指标元数据中筛选出核心字段（指标名称、指标英文名、指标描述），确保只对最关键的信息进行向量化处理，以降低噪音，提高检索精度。文本拼接：将选定的多个字段（指标名称、指标英文名、指标描述）通过逗号分隔符拼接成一个完整的文本。向量化处理：利用向量模型对拼接后的文本进行向量化，将文本转换成高维向量表示，保留语义信息。向量存储：将生成的向量数据与原始指标信息一并存入向量数据库（Vector Store），便于后续的高效检索和匹配。

file

2.2 指标信息召回

用户可以在指标平台输入自然语言进行指标信息查询，收到用户的查询请求后并没有直接在向量数据库中进行匹配，而是进行了 Query 重写的优化，这可以大大提高命中的准确率。在 Query 重写阶段我们定义了重写的规则，然后生成 Prompt 交由大模型去完成。Query 重写的 Prompt 如下：任务描述：你的任务是接收用户关于数据指标查询的问题输入，并将其按照中文语法规则准确地分割成独立的词汇单元。每个词汇或短语应当能够作为搜索数据中台内对应指标名称的关键字。输入示例：过去一个月的销售额是多少？分词要求：

将句子分解成可以用于搜索相关数据指标的关键词。
请确保保留时间相关的词汇（如 "过去一个月"），因为它们对于查找正确的数据指标至关重要。
输出格式应为', ' 两个星号和逗号分隔的字符串，便于进一步处理。输出格式示例：过去一个月 , 销售额 **

2.3 指标数据查询

file

我们在设计通过自然语言查询指标数据方案时并没有走 NL2SQL 的路线，因为 NL2SQL 在我们实际应用落地中存在以下挑战：对大模型能力要求高：准确率高的 NL2SQL 方案通常都需要参数量比较大的大模型，如 ChatGPT，参数大的模型意味着模型推理的成本大大提高。大模型多样性：袋鼠云是一家 To B 的公司，未来面对的不同客户环境下的大模型具有多样性、存在性能差异。

为了解决这些问题，我们在智能指标平台中采用了 NL2API（自然语言到 API）的数据查询方案。方案如下：我们的指标平台是基于维度建模的思想建设的，在平台上需要先建立好数据模型，定义各类业务需要的维度和度量，指标由时间维度 + 维度 + 指标组成。所以我们天然有了一层维度建模的语义，为 NL2API 奠定了基础。为了降低大模型对 SQL 解析的依赖，我们基于维度建模的语义设计开发了自助取数的 API 接口，通过给自助取数的 API 接口传递指标 ID、维度列表、时间范围、where 过滤条件相关参数即可完成数据查询。用户输入自然语言查询数据时，先根据用户问题匹配目标指标元信息，然后生成与大模型交互的 Prompt，Prompt 由用户问题 + 指标元信息 + 历史对话组成，让大模型解析出自助取数 API 需要指标 ID、维度列表、时间范围、where 过滤条件参数。指标平台根据大模型解析出来的参数进行指标数据查询展示