ChatBI 之 SuperSonic 初尝试

Luckyforever%-

于 2025-03-20 14:47:18 发布

阅读量1.8k

点赞数 24

文章标签：数据挖掘大数据人工智能 nlp python ai 自然语言处理

本文链接：https://blog.csdn.net/weixin_43145550/article/details/146395362

版权

一、背景

随着数据驱动决策的重要性日益增加，商业智能（BI）已经成为企业不可或缺的一部分。然而，传统的BI系统尽管在数据分析和报告生成方面发挥了重要作用，但仍然存在诸多痛点，限制了其在现代企业中的应用效果。

1.1 BI的历史演变与发展阶段

起源与早期发展（1950年代-1990年代）
BI的雏形可追溯至19世纪，但真正系统化始于20世纪50年代。IBM研究员Hans Peter Luhn在 1958 年提出“商业智能系统”概念，强调通过技术将数据转化为决策支持信息。1989年，Gartner 分析师 Howard Dresner 正式将 BI 定义为涵盖数据存储和分析的统称，推动BI成为企业决策的重要工具。早期 BI 以 IT 主导的预定义报表为主，依赖数据仓库和 OLAP 技术，但实施周期长、灵活性差，仅适用于大型企业。
传统BI阶段（2000年代）
此阶段以SAP、Cognos等工具为代表，采用单体架构，功能模块（数据摄取、处理、存储、可视化）紧密耦合。其三层架构包括：
- 后端层：构建OLAP数据立方体，支持实时数据探索；
- 语义层：定义KPI和业务逻辑；
- 前端层：生成可视化报表。
然而，传统BI存在成本高、响应慢、业务灵活性不足等问题，难以适应快速变化的市场需求。
自助BI阶段（2010年代）
随着云计算和大数据技术发展，自助式BI（如Tableau、Power BI）崛起。这类工具允许非技术人员通过拖拽操作进行数据探索，降低使用门槛，并支持实时分析。数仓建模与可视化工具的结合，使得业务人员能独立完成数据分析。但此阶段仍受限于数仓建模的复杂度，下钻分析能力有限。
智能BI阶段（2020年代至今）
AI和机器学习技术的融入推动BI进入智能化阶段。典型特征包括：
- 增强分析：通过 NLP 实现“搜索式分析”，用户可直接提问生成可视化结果；
- 预测与自动化：集成机器学习模型，支持趋势预测、异常检测等高级分析；
- 实时数据处理：结合流计算技术（如Kafka、Flink），实现秒级响应。

1.2 传统BI的主要痛点

虽然传统BI工具在数据管理和分析上做了很多工作，但它们也有一些让人头疼的问题：

查数不方便：用传统BI工具查数据时，通常需要懂技术的人才能操作得好。这意味着业务人员得找IT部门或者专门的数据分析师帮忙拿数据。这样一来，不仅沟通多了，还容易产生误解，影响效率。
使用起来太复杂：这些工具的操作界面和技术要求对非技术人员来说太难了，很多人学不会怎么用。这就像是一道高墙，把很多人挡在外面，让数据的价值不能被充分利用，拖累了整个企业的数据分析能力。
经验难以传承：在用传统BI的过程中，那些宝贵的经验和发现往往只存在个人脑子里，没有好的办法把这些变成公司的财富。所以，一旦关键员工离职，这些知识也就跟着走了，对公司长远发展不利。
实时性不够强：传统BI系统处理实时数据的能力不怎么样，生成报告的时间也挺长的。这对需要快速应对市场变化的企业来说是个大问题，可能会错过最佳决策时机。
跨部门合作困难：不同部门之间可能对数据的理解不一样，这就导致合作时容易产生误会和混乱。而且，多个工具之间的连接也很复杂，增加了数据流动的风险和管理难度，降低了工作效率。

1.3 智能化BI的优势

为了解决这些问题，智能化BI带着人工智能（AI）特别是大语言模型（LLM）技术来了。它通过一些新功能，让用户体验更好，数据分析更快更准：

自然对话就能查数据：智能化BI有了对话式的界面，用户可以直接用说话的方式问问题，系统自己就能理解并给出答案。这样，不管是什么水平的用户都能轻松地获取和理解数据，不需要懂太多技术。
数据处理快如闪电：依靠AI强大的数据处理能力和预测算法，智能化BI可以瞬间分析海量数据。这让企业能够更快地发现问题，并迅速做出反应，非常适合现在这种节奏快、变化多的市场环境。
自动挖掘深层信息：有了机器学习的帮助，智能化BI可以自动找出数据里隐藏的模式和趋势，提供深入的见解。这样，做决定的时候就更有依据，减少了人工操作的麻烦。
量身定制的服务：通过对用户过往行为的分析，智能化BI还能提供个性化的建议和服务。这样的专属体验不仅让用户更满意，也让数据分析的效果更好。
数据展示更直观：除了普通的图表，智能化BI还有更多生动、动态的方式来展示数据。这让用户更容易看明白数据背后的故事，并且方便跟别人分享这些信息。

总的来说，从传统BI到智能化BI的转变，不仅仅是技术的进步，更是为了满足现代企业对速度和灵活性的需求。通过解决传统BI的不足，智能化BI为企业提供了更强有力、更容易使用的数据分析工具，帮助企业在竞争中占据有利位置。

1.4 公司痛点

目前，使用的 BI 工具是开源版本的 MetaBase，常用数据源有：ODPS（官方不支持，需要额外开发依赖包）、Hologres、Offline（MySQL）；经过日积月累的使用，形成了以下痛点：

不同数据源的底表无法进行关联分析；
历史原因，同一个需求可能有多个不同数据源的看板，造成使用混乱，而且看板并没有很好的传承下去；
产运人员的SQL能力有待加强；
开源版本缺乏官方技术支持。

二、市场案例

为了探索 AI + BI 在牛客的适用场景，对市面上的主流产品进行了一些调研，目前市面上的智能化BI产品主要有2类：

商业化
- DataFocus
  - 免费版本需要在GPU机器部署自研模型
- 衡石ChatBI
- 网易有数ChatBI
开源
- DataEase
- SuperSonic
  - 腾讯开源的新一代BI平台
  - GitHub
  - 融合Chat BI（LLM）和Headless BI（语义层）打造新一代的BI平台。

商业化产品虽然有免费版本，但是需要联系技术人员部署模型非常麻烦。所以选择开源项目测试，最终选择了腾讯开源并且社区成熟的 SuperSonic 超音数。

2.1 部署方式

采用安装包部署，注意 JAVA 需要 21及以上版本，跟系统版本进行隔离可以在 bin/supersonic-env.sh文件中配置：

#!/usr/bin/env bash

export JAVA_HOME=/usr/lib/jdk-23.0.2
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:/usr/local/bin:/usr/bin:/bin
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib

# Supported DB_TYPE:  h2, mysql, postgres
export S2_DB_TYPE=
export S2_DB_HOST=
export S2_DB_PORT=
export S2_DB_USER=
export S2_DB_PASSWORD=
export S2_DB_DATABASE=

然后执行 sh bin/supersonic-daemon.sh start 启动即可。
在这里插入图片描述

2.2 功能测试

成功连接 Offline、Hermes 数据源。
部署 DeepSeek-R1
创建公司日活数据，方便后续通过对话交互获取数据

SuperSonic 中 Headless部分的各种概念之间的关系:

数据集、数据模型都归属于一个主题域
数据集可由多个模型组装而来
数据模型由指标、维度组装而成
它们之间类似DB中的对应关系：
- Database(主题域)->View(数据集)->Table(数据模型)->Column(指标/维度)
  
  首先，要进行“语义建模”：
创建主题域
创建模型
数据及管理
数据准备完成之后，在“助理管理”中创建助理，并关联数据集：
在“大模型配置”页，可以编辑提示词模板：
“工具配置”中关联数据集，否则问答对话时会报错
准备好之后就可以在“问答对话”中测试了，例子：2025-02-25 日活
首先，会映射 Schema，匹配到语义建模中数据集的日期、活跃这俩字段：
然后，生成语义查询语句 S2SQL，并经过 LLM解析、修正SQL：
最终执行SQL如下，红框中是我原始编辑代码：
但是，目前对 Postgres 中某些函数的支持并不好，比如：unnest，SQL编辑是成功的，但是在问答对话中就报错了：