传统的指标管理平台往往面临指标数据查询复杂、分析决策门槛高等挑战,难以满足企业快速、精准决策的需求。
为了让数据分析管理更智能,袋鼠云数栈指标管理平台结合大模型完成了智能化的升级,可以给数据分析的场景提供更强大、更高效的助力。大模型凭借其强大的自然语言理解能力和泛化能力,能够精准识别用户的查询意图、分析复杂数据、并能提供分析建议,与指标平台相结合大幅降低了数据分析的技术门槛。
接下来将带领大家展示指标平台的解析其中的功能及关键技术。
功能点展示
基于大模型,我们在指标平台上开发了智能机器人,可以通过自然语言对话的方式完成指标信息检索、指标走势查询、指标数据查询和指标归因分析。
1.1 指标检索
指标管理平台中传统检索指标的方式往往依赖关键字的匹配,这在海量指标市场中快速找到目标指标将是一个挑战,关键字的方式很难理解用户的实际需求,如果关键字不准确又很难匹配到目标指标。通过与大模型和 RAG 技术相结合,我们实现了可以通过自然语言进行检索的功能。
1.2 指标图表展示
将数据以图表的形式展示是数据分析中常见的方式,我们可以通过大模型的自然语言理解能力,识别出用户需要图表展示的意图,并通过对应的格式样式来展现。
1.3 指标数据查询
用户对指标数据的查询需求日益复杂化,传统的 SQL 查询方式对非技术用户门槛较高,而基于自然语言的查询(NLQ, Natural Language Query)能大大降低使用门槛,使业务人员能够更高效地获取所需的数据。基于大模型技术的数栈指标平台已经支持通过自然语言进行数据查询的功能。
1.4 指标归因分析
当指标出现异常波动时,找出背后的原因是解决问题的关键。传统的归因分析往往依赖于人工经验和手动排查,耗时费力且容易遗漏。通过与 AI 大模型的结合,指标平台提供了更加智能的归因分析功能。
技术解析
2.1 指标平台元数据向量化
指标平台的元数据包括指标 ID、指标名称、指标描述等等,当用户在指标平台上进行指标开发新建、更新时会触发指标信息向量化的流程。这一流程由我们的 AIWorks(AI 应用平台)提供的接口完成,主要包括以下几个核心步骤: 关键字段提取:从指标元数据中筛选出核心字段(指标名称、指标英文名、指标描述),确保只对最关键的信息进行向量化处理,以降低噪音,提高检索精度。 文本拼接:将选定的多个字段(指标名称、指标英文名、指标描述)通过逗号分隔符拼接成一个完整的文本。 向量化处理:利用向量模型对拼接后的文本进行向量化,将文本转换成高维向量表示,保留语义信息。 向量存储:将生成的向量数据与原始指标信息一并存入向量数据库(Vector Store),便于后续的高效检索和匹配。
2.2 指标信息召回
用户可以在指标平台输入自然语言进行指标信息查询,收到用户的查询请求后并没有直接在向量数据库中进行匹配,而是进行了 Query 重写的优化,这可以大大提高命中的准确率。在 Query 重写阶段我们定义了重写的规则,然后生成 Prompt 交由大模型去完成。Query 重写的 Prompt 如下: 任务描述:你的任务是接收用户关于数据指标查询的问题输入,并将其按照中文语法规则准确地分割成独立的词汇单元。每个词汇或短语应当能够作为搜索数据中台内对应指标名称的关键字。 输入示例:过去一个月的销售额是多少? 分词要求:
- 将句子分解成可以用于搜索相关数据指标的关键词。
- 请确保保留时间相关的词汇(如 "过去一个月"),因为它们对于查找正确的数据指标至关重要。
- 输出格式应为', ' 两个星号和逗号分隔的字符串,便于进一步处理。 输出格式示例:过去一个月 , 销售额 **
2.3 指标数据查询
我们在设计通过自然语言查询指标数据方案时并没有走 NL2SQL 的路线,因为 NL2SQL 在我们实际应用落地中存在以下挑战: 对大模型能力要求高:准确率高的 NL2SQL 方案通常都需要参数量比较大的大模型,如 ChatGPT,参数大的模型意味着模型推理的成本大大提高。 大模型多样性:袋鼠云是一家 To B 的公司,未来面对的不同客户环境下的大模型具有多样性、存在性能差异。
为了解决这些问题,我们在智能指标平台中采用了 NL2API(自然语言到 API)的数据查询方案。方案如下: 我们的指标平台是基于维度建模的思想建设的,在平台上需要先建立好数据模型,定义各类业务需要的维度和度量,指标由时间维度 + 维度 + 指标组成。所以我们天然有了一层维度建模的语义,为 NL2API 奠定了基础。 为了降低大模型对 SQL 解析的依赖,我们基于维度建模的语义设计开发了自助取数的 API 接口,通过给自助取数的 API 接口传递指标 ID、维度列表、时间范围、where 过滤条件相关参数即可完成数据查询。 用户输入自然语言查询数据时,先根据用户问题匹配目标指标元信息,然后生成与大模型交互的 Prompt,Prompt 由用户问题 + 指标元信息 + 历史对话组成,让大模型解析出自助取数 API 需要指标 ID、维度列表、时间范围、where 过滤条件参数。指标平台根据大模型解析出来的参数进行指标数据查询展示
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、LLM大模型系列视频教程
四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)
LLM大模型学习路线 ↓
阶段1:AI大模型时代的基础理解
-
目标:了解AI大模型的基本概念、发展历程和核心原理。
-
内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
-
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
-
内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
-
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
-
内容:
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
-
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
-
内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓