Apache Doris × AI 的5个应用场景(附完整案例)

你是否也有过这样的经历:一边是堆积如山的企业数据,一边是炙手可热的AI大模型,两者之间却像是隔了一条鸿沟,难以搭建起高效的桥梁。

数据分析师忙得焦头烂额,业务人员对数据 x AI洞察的渴望却始终难以满足…不过,随着Apache Doris与AI技术的深度融合,这一困境正在被彻底打破。

img

Doris遇上AI,火花四溅

“嘿,听说了吗?Apache Doris现在能和AI谈恋爱了!”

办公室里,数据架构师小张兴奋地对产品经理小李说道。

"啥?数据库也能谈恋爱?"小李一脸困惑。

"不是字面意思啦!是Apache Doris与AI的深度融合

好比用自然语言就能直接查询Doris数据,并结合AI自动进行决策分析,RAG技术让企业知识库变得超级智能,ChatBI让人人都能成为数据分析师…"

Doris x AI的关键特性

那么,Doris有哪些关键特性去融合AI?

img

以上图为例,数据源经过各种数据集成和加工处理后,进入实时数据仓库 Doris 和离线湖仓(如 Hive、Iceberg、Hudi、Paimon),广泛应用于 OLAP 分析场景,同时也可以作为 LLM 上下游的数据底座。例如支撑LLM的Logs/ Events / Traces Analysis,Data Science,RAG或ChatBI等场景

在这么一个生态链路中,Doris x AI 主要有以下几个关键特性:

1. 兼容 MySQL 协议

img

Doris 采用 MySQL 协议,高度兼容 MySQL 语法,支持标准 SQL。用户可以通过各类客户端工具访问 Apache Doris,并支持与各类 LLM 项目及 BI 工具无缝集成,使得用户引入Doris时,学习成本低,能够快速上手。

2. 支持 Arrow Flight SQL 协议

img

虽然 MySQL协议 具有良好兼容性和广泛的工具支持,但Doris默认是列式存储,而MySQL/JDBC/ODBC协议是通过行式传输,会导致与Doris进行数据传输时产生大量行/列的序列化与反序列化动作。在数据科学、机器学习等AI场景,也会使得FE 容易成为瓶颈、文本协议效率差。

引入 Arrow Flight SQL 协议,助力Doris实现高速数据读取。例如数据可以直接通过 BE 传递到 Pandas 客户端,列式数据传输

据实测:基于引入 Arrow Flight SQL 协议,Pandas(NLP预处理/模型训练) 测试数据吞吐提升 100 倍

3. 极致的分析性能

img

3.1 执行引擎

Apache Doris 采用大规模并行处理(MPP)架构,支持节点间和节点内并行执行,以及多个大型表的分布式 Shuffle Join,从而更好地应对复杂查询。

使用 Pipeline 执行引擎,将查询分解为多个子任务并行执行,充分利用多核 CPU 的能力,同时通过限制查询线程数来解决线程膨胀问题。Pipeline 执行引擎减少数据拷贝和共享,优化排序和聚合操作,从而显著提高查询效率和吞吐量。

并且在查询引擎侧是向量化引擎,所有内存结构均按列式布局,可显著减少虚函数调用,提高缓存命中率,并有效利用 SIMD 指令。在宽表聚合场景下,性能是非向量化引擎的 5-10 倍。

3.2 查询优化器

在优化器方面,Doris 采用 CBO、RBO 和 HBO 相结合的优化策略。RBO 支持常量折叠、子查询重写和谓词下推等优化,CBO 支持 Join Reorder 等优化,HBO 能够基于历史查询信息推荐最优执行计划。多种优化措施确保 Doris 能够在各类查询中枚举出性能优异的查询计划。

3.3 缓存加速

Doris提供Data Cache和SQL Cache进行缓存加速:

1️⃣ Data Cache(数据缓存)通过缓存最近访问的远端存储系统(HDFS 或对象存储)的数据文件到本地磁盘上,加速后续访问相同数据的查询。在频繁访问相同数据的查询场景中,Data Cache 可以避免重复的远端数据访问开销,提升热点数据的查询分析性能和稳定性。

2️⃣ SQL Cache 是 Doris 提供的一种查询优化机制,可以显著提升查询性能。它通过缓存查询结果来减少重复计算,适用于数据更新频率较低的场景。

3.4 物化视图透明加速

物化视图根据 SQL 定义计算并存储数据,且根据策略进行周期性或实时性更新。物化视图可直接查询,也可以将查询透明改写。它可用于以下几个场景:

1️⃣ 查询加速

在决策支持系统中,如 BI 报表、Ad-Hoc 查询等,这类分析型查询通常包含聚合操作,可能还涉及多表连接。由于计算此类查询结果较为消耗资源、响应时间可能长达分钟级,且业务场景往往要求秒级响应,可以构建物化视图,对常见查询进行加速。

2️⃣ 轻量化 ETL(数据建模)

在数据分层场景中,可以使用物化视图的嵌套来构建 DWD 和 DWM 层,利用物化视图的调度刷新能力。

3️⃣ 湖仓一体

针对多种外部数据源,可以将这些数据源所使用的表进行物化视图构建,以此来节省从外部表导入数据到内部表的成本,并且加速查询过程。

目前Doris支持同步和异步物化视图:

同步物化视图需要与基表的数据保持强一致性。

异步物化视图与基表的数据保持最终一致性,可能会有一定的延迟。它通常用于对数据时效性要求不高的场景,一般使用 T+1 或小时级别的数据来构建物化视图。如果时效性要求高,则考虑使用同步物化视图。

3.5 智能索引

数据库索引是用于查询加速的,为了加速不同的查询场景,Apache Doris 支持了多种丰富的索引:

智能索引(自动创建)

前缀索引:Doris基于排序键自动为每1024行数据创建稀疏索引,直接定位数据块起始位置,加速排序键相关查询。仅需36字节即可触发索引,适合高频过滤场景。

ZoneMap索引:自动维护每列的Min/Max/Null统计信息,快速跳过不满足条件的数据块,优化范围查询和NULL判断。

倒排索引(手动创建)

支持文本全文检索和数值/日期的高效过滤,通过值到行号的映射实现精准定位。

特别适合LLM日志分析场景:支持中文/英文分词(如parser=“chinese”),可快速匹配关键词(如MATCH_ANY查询)。

全文检索与高级索引

倒排索引替代旧版Bitmap索引,支持多条件组合查询和复杂分析

BloomFilter系列:包括标准BloomFilter(高基数列等值查询)和NGram变种(LIKE模糊匹配),需手动配置。

4. 开放的湖仓一体

img

Doris 通过可扩展的连接器框架、存算分离架构、数据生态开放性和极致的分析性能, 为用户提供了优秀的湖仓一体解决方案

1️⃣ 可扩展的连接器框架:Doris 定义了标准的数据目录(Catalog)、库(Database)、表(Table)三个层级,帮助开发人员快速对接企业内部特有的数据源(S3/HDFS:溯源分析/跨域模型训练),实现数据快速互通

2️⃣ 存算分离架构:不同时间点使用不同规模的计算资源服务业务请求,按需使用计算资源,节约成本

3️⃣ 数据生态开放性:2.1 版本起,Doris 支持多种SQL 方言转换,如 Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse 等等。

本文主要介绍以上4个特性,其它特性可具体查看Doris官方文档 🔗:https://doris.apache.org/zh-CN/docs/dev/gettingStarted/what-is-apache-doris

了解完Doris x AI的关键特性后,接下来,直接来看看Doris与AI的5个应用场景 👇

Doris与AI的5个应用场景

img

场景一:Doris × DataAgent - 数据有了自己的智能助手

工作中经常出现的这么一个场景:公司号突然被喷,评论区一片狼藉,客服电话被打爆,老板紧急召集会议,大家手忙脚乱却不知从何入手?

现在,有了Doris × DataAgent,一切都变得简单:

img

“最近我们产品在社交媒体上的评价怎么样?”

DataAgent接收到这个问题后:自动连接到Doris数据库,扫描相关Schema,生成SQL查询,执行查询并获取结果,然后调用LLM(如DeepSeek)生成自然语言回答

“过去一周,产品在社交媒体上获得了2,367条评论,总体情感倾向积极,NPS评分比上月提升12%。主要正面反馈集中在新UI设计和性能提升方面,负面反馈主要关注某些高级功能的学习曲线较陡。建议重点关注用户B站ID:tech_lover的长评,该评论获得了最高点赞量…”

这种实时、智能的数据分析能力,正改变着企业的决策方式。舆情分析、反欺诈决策等高价值场景,都能从这种技术组合中获益匪浅。

附 ⬇️ Doris x AI舆情分析案例:

,时长01:12

🔗 完整文字教程:Doris x AI舆情分析

场景二:Doris × RAG - 让大模型有据可依

大模型有时候真是不靠谱,编故事比我还厉害!

这是使用AI的企业常有的抱怨。知识的时效性、专业领域的局限性、幻觉问题,都困扰着AI应用落地。

Doris × RAG组合正是解决这一困境的良方:

img

1️⃣ 本地数据(如企业知识库文档)通过向量化存储到Doris中

2️⃣ 用户提问时,系统使用Doris高性能查询与distance向量函数,精准召回相关信息(预计6月份正式发布Doris向量语义搜索)

3️⃣ 大模型基于这些可靠信息生成答案

例如:一位法律顾问使用该系统查询特定案例时,系统不再凭空编造,而是从Doris存储的法律条文、案例库和历史咨询记录中检索出准确信息,然后生成带有明确引用来源的专业回答。

这好比给AI装上了"开卷考试"的能力,极大提升了回答的准确性与可靠性。

场景三:Doris × ChatBI - 人人都能成为数据分析师

老板临时要一份上季度各地区销售额分析报告,还要漂亮的可视化图表,30分钟内!

这种紧急需求往往让业务人员手忙脚乱。而有了Doris × ChatBI,一切变得轻松自如:

用户只需用自然语言提问:“分析上季度各地区销售额,按产品类别细分,并用柱状图展示前五名

Doris x ChatBI系统会:

img

1️⃣ 结合RAG技术进行相似度召回

2️⃣ 通过DSL规则生成Prompt

3️⃣ 大模型进行语义分析,生成规范查询

4️⃣ Doris快速执行查询,返回结果

5️⃣ 前端自动生成美观的可视化图表

从复杂的数据分析到漂亮的图表,一气呵成,无需编写一行代码

这种方式特别适合两类场景:标准化数据分析场景(Text2SQL)和企业特定业务场景(Text2DSL)。前者灵活性高,后者准确率和响应速度更有优势。

场景四:Doris × MCP - AI能力的"万能转换器"

又要开发一个Doris AI应用接口?我的项目排期已经满了!

Doris技术团队在对接各种AI能力时,常常面临技术栈割裂、开发周期长的困境。MCP(模型上下文协议)犹如AI世界的"USB转换器",让不同工具和数据源能无缝对接。

Doris × MCP为企业带来了全新的AI能力整合方式:

上线一个智能数据助手?半天搞定!

系统架构师小王乐呵呵地说。他只需:

img

1️⃣ 使用兼容MCP Server的Client(SelectDB/Doris Studio规划中)

2️⃣ 连接到Doris MCP Server

3️⃣ 立刻获取多种AI能力:NL2SQL、查询性能诊断、智能运维等

某金融科技公司利用这种组合,将原本需要2周开发的Doris ChatBI功能,压缩到了1天内完成上线。系统还能智能分析SQL执行计划,提供定制化优化建议,可大幅度提升数据库性能。

Doris MCP协议标准化了AI与Doris数据之间的交互,使企业能以更低的成本、更快的速度构建AI应用,真正实现了"即插即用"的AI能力。

预计在4月份,正式发布Doris MCP MCP Server&Client,敬请期待!

场景五:Doris × AI Observability - 大模型应用的"黑匣子"

“大模型应用昨晚2点突然失效了,用户投诉不断,但我们完全不知道发生了什么!”

随着AI应用在企业中的普及,可观测性成为一大挑战。大模型调用链复杂,故障诊断困难

Doris提供了高性能、低成本的可观测性解决方案:

img

1️⃣ 存储和分析大量日志、Trace和指标数据

2️⃣ 与OpenTelemetry、ELK等生态集成

3️⃣ 提供标准SQL接口支持Grafana可视化

一个经典场景:某电商平台的AI推荐系统出现异常。运维团队通过Doris × AI Observability快速定位到问题:GPU资源在某时段被其他应用占用,导致推理延迟增加,进而影响了整个推荐链路。

完整的调用链Trace和资源监控数据让诊断变得直观高效

附 ⬇️ 【走进网易】基于 Doris/SelectDB 构建开放、高性能、低成本的可观测性平台 案例 :https://www.bilibili.com/video/BV1yNX5YnEba/

结语

随着技术的不断演进,Doris与AI的融合还将向更深层次发展:

  • 向量语义检索:更完善更精准的相似度检索
  • 数据准备与特征存储:为AI模型训练提供高效数据支持
  • 湖仓一体集成:无界对接更多的结构化和非结构化数据源
  • ChatBI与Agent能力增强:更智能的数据分析体验
  • Doris MCP Server&Client:预计在4月正式开源

这些演进方向正在重塑企业的数据分析与AI应用方式,让数据价值最大化。不仅解决了"数据孤岛"和"AI幻觉"等传统痛点,同时也开创了数据智能化的新范式。

无论你是数据工程师、数据分析师,还是业务决策者,这场数据与AI智能的共舞都值得你深度参与。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值