Apache Doris × AI 的5个应用场景(附完整案例)

你是否也有过这样的经历:一边是堆积如山的企业数据,一边是炙手可热的AI大模型,两者之间却像是隔了一条鸿沟,难以搭建起高效的桥梁。 

数据分析师忙得焦头烂额,业务人员对数据 x AI洞察的渴望却始终难以满足...不过,随着Apache Doris与AI技术的深度融合,这一困境正在被彻底打破。

图片

Doris遇上AI,火花四溅

"嘿,听说了吗?Apache Doris现在能和AI谈恋爱了!"

办公室里,数据架构师小张兴奋地对产品经理小李说道。

"啥?数据库也能谈恋爱?"小李一脸困惑。

"不是字面意思啦!是Apache Doris与AI的深度融合

好比用自然语言就能直接查询Doris数据,并结合AI自动进行决策分析,RAG技术让企业知识库变得超级智能,ChatBI让人人都能成为数据分析师..."

Doris x AI的关键特性

那么,Doris有哪些关键特性去融合AI?

图片

以上图为例,数据源经过各种数据集成和加工处理后,进入实时数据仓库 Doris 和离线湖仓(如 Hive、Iceberg、Hudi、Paimon),广泛应用于 OLAP 分析场景,同时也可以作为 LLM 上下游的数据底座。例如支撑LLM的Logs/ Events / Traces Analysis,Data Science,RAG或ChatBI等场景

在这么一个生态链路中,Doris x AI 主要有以下几个关键特性:

1. 兼容 MySQL 协议

图片

Doris 采用 MySQL 协议,高度兼容 MySQL 语法,支持标准 SQL。用户可以通过各类客户端工具访问 Apache Doris,并支持与各类 LLM 项目及 BI 工具无缝集成,使得用户引入Doris时,学习成本低,能够快速上手。

2. 支持  Arrow Flight SQL 协议

图片

虽然 MySQL协议 具有良好兼容性和广泛的工具支持,但Doris默认是列式存储,而MySQL/JDBC/ODBC协议是通过行式传输,会导致与Doris进行数据传输时产生大量行/列的序列化与反序列化动作。在数据科学、机器学习等AI场景,也会使得FE 容易成为瓶颈、文本协议效率差。

引入 Arrow Flight SQL 协议,助力Doris实现高速数据读取。例如数据可以直接通过 BE 传递到 Pandas 客户端,列式数据传输

据实测:基于引入 Arrow Flight SQL 协议,Pandas(NLP预处理/模型训练) 测试数据吞吐提升 100 倍

3. 极致的分析性能

图片

3.1 执行引擎

Apache Doris 采用大规模并行处理(MPP)架构,支持节点间和节点内并行执行,以及多个大型表的分布式 Shuffle Join,从而更好地应对复杂查询。

使用 Pipeline 执行引擎,将查询分解为多个子任务并行执行,充分利用多核 CPU 的能力,同时通过限制查询线程数来解决线程膨胀问题。Pipeline 执行引擎减少数据拷贝和共享,优化排序和聚合操作,从而显著提高查询效率和吞吐量。

并且在查询引擎侧是向量化引擎,所有内存结构均按列式布局,可显著减少虚函数调用,提高缓存命中率,并有效利用 SIMD 指令。在宽表聚合场景下,性能是非向量化引擎的 5-10 倍。

3.2 查询优化器

在优化器方面,Doris 采用 CBO、RBO 和 HBO 相结合的优化策略。RBO 支持常量折叠、子查询重写和谓词下推等优化,CBO 支持 Join Reorder 等优化,HBO 能够基于历史查询信息推荐最优执行计划。多种优化措施确保 Doris 能够在各类查询中枚举出性能优异的查询计划。

3.3 缓存加速

Doris提供Data Cache和SQL Cache进行缓存加速:

1️⃣ Data Cache(数据缓存)通过缓存最近访问的远端存储系统(HDFS 或对象存储)的数据文件到本地磁盘上,加速后续访问相同数据的查询。在频繁访问相同数据的查询场景中,Data Cache 可以避免重复的远端数据访问开销,提升热点数据的查询分析性能和稳定性。

2️⃣ SQL Cache 是 Doris 提供的一种查询优化机制,可以显著提升查询性能。它通过缓存查询结果来减少重复计算,适用于数据更新频率较低的场景。

3.4 物化视图透明加速

物化视图根据 SQL 定义计算并存储数据,且根据策略进行周期性或实时性更新。物化视图可直接查询,也可以将查询透明改写。它可用于以下几个场景:

1️⃣ 查询加速

在决策支持系统中,如 BI 报表、Ad-Hoc 查询等,这类分析型查询通常包含聚合操作,可能还涉及多表连接。由于计算此类查询结果较为消耗资源、响应时间可能长达分钟级,且业务场景往往要求秒级响应,可以构建物化视图,对常见查询进行加速。

2️⃣ 轻量化 ETL(数据建模)

在数据分层场景中,可以使用物化视图的嵌套来构建 DWD 和 DWM 层,利用物化视图的调度刷新能力。

3️⃣ 湖仓一体

针对多种外部数据源,可以将这些数据源所使用的表进行物化视图构建,以此来节省从外部表导入数据到内部表的成本,并且加速查询过程。

目前Doris支持同步和异步物化视图:

同步物化视图需要与基表的数据保持强一致性。

异步物化视图与基表的数据保持最终一致性,可能会有一定的延迟。它通常用于对数据时效性要求不高的场景,一般使用 T+1 或小时级别的数据来构建物化视图。如果时效性要求高,则考虑使用同步物化视图。

3.5 智能索引

数据库索引是用于查询加速的,为了加速不同的查询场景,Apache Doris 支持了多种丰富的索引:

智能索引(自动创建)

前缀索引:Doris基于排序键自动为每1024行数据创建稀疏索引,直接定位数据块起始位置,加速排序键相关查询。仅需36字节即可触发索引,适合高频过滤场景。

ZoneMap索引:自动维护每列的Min/Max/Null统计信息,快速跳过不满足条件的数据块,优化范围查询和NULL判断。

倒排索引(手动创建)

支持文本全文检索和数值/日期的高效过滤,通过值到行号的映射实现精准定位。

特别适合LLM日志分析场景:支持中文/英文分词(如parser="chinese"),可快速匹配关键词(如MATCH_ANY查询)。

全文检索与高级索引

倒排索引替代旧版Bitmap索引,支持多条件组合查询和复杂分析

BloomFilter系列:包括标准BloomFilter(高基数列等值查询)和NGram变种(LIKE模糊匹配),需手动配置。

4. 开放的湖仓一体

图片

Doris 通过可扩展的连接器框架、存算分离架构、数据生态开放性和极致的分析性能, 为用户提供了优秀的湖仓一体解决方案

1️⃣ 可扩展的连接器框架:Doris 定义了标准的数据目录(Catalog)、库(Database)、表(Table)三个层级,帮助开发人员快速对接企业内部特有的数据源(S3/HDFS:溯源分析/跨域模型训练),实现数据快速互通

2️⃣ 存算分离架构:不同时间点使用不同规模的计算资源服务业务请求,按需使用计算资源,节约成本

3️⃣ 数据生态开放性:2.1 版本起,Doris 支持多种SQL 方言转换,如 Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse 等等。

Doris与AI的5个应用场景

图片

场景一:Doris × DataAgent - 数据有了自己的智能助手

工作中经常出现的这么一个场景:公司号突然被喷,评论区一片狼藉,客服电话被打爆,老板紧急召集会议,大家手忙脚乱却不知从何入手?

现在,有了Doris × DataAgent,一切都变得简单:

图片

"最近我们产品在社交媒体上的评价怎么样?"

DataAgent接收到这个问题后:自动连接到Doris数据库,扫描相关Schema,生成SQL查询,执行查询并获取结果,然后调用LLM(如DeepSeek)生成自然语言回答

"过去一周,产品在社交媒体上获得了2,367条评论,总体情感倾向积极,NPS评分比上月提升12%。主要正面反馈集中在新UI设计和性能提升方面,负面反馈主要关注某些高级功能的学习曲线较陡。建议重点关注用户B站ID:tech_lover的长评,该评论获得了最高点赞量..."

这种实时、智能的数据分析能力,正改变着企业的决策方式。舆情分析、反欺诈决策等高价值场景,都能从这种技术组合中获益匪浅。

场景二:Doris × RAG - 让大模型有据可依

"大模型有时候真是不靠谱,编故事比我还厉害!"

这是使用AI的企业常有的抱怨。知识的时效性、专业领域的局限性、幻觉问题,都困扰着AI应用落地。

Doris × RAG组合正是解决这一困境的良方:

图片

1️⃣ 本地数据(如企业知识库文档)通过向量化存储到Doris中

2️⃣ 用户提问时,系统使用Doris高性能查询与distance向量函数,精准召回相关信息(预计6月份正式发布Doris向量语义搜索)

3️⃣ 大模型基于这些可靠信息生成答案

例如:一位法律顾问使用该系统查询特定案例时,系统不再凭空编造,而是从Doris存储的法律条文、案例库和历史咨询记录中检索出准确信息,然后生成带有明确引用来源的专业回答。

这好比给AI装上了"开卷考试"的能力,极大提升了回答的准确性与可靠性。

场景三:Doris × ChatBI - 人人都能成为数据分析师

"老板临时要一份上季度各地区销售额分析报告,还要漂亮的可视化图表,30分钟内!"

这种紧急需求往往让业务人员手忙脚乱。而有了Doris × ChatBI,一切变得轻松自如:

用户只需用自然语言提问:"分析上季度各地区销售额,按产品类别细分,并用柱状图展示前五名"

Doris x ChatBI系统会:

图片

1️⃣ 结合RAG技术进行相似度召回

2️⃣ 通过DSL规则生成Prompt

3️⃣ 大模型进行语义分析,生成规范查询

4️⃣ Doris快速执行查询,返回结果

5️⃣ 前端自动生成美观的可视化图表

从复杂的数据分析到漂亮的图表,一气呵成,无需编写一行代码

这种方式特别适合两类场景:标准化数据分析场景(Text2SQL)和企业特定业务场景(Text2DSL)。前者灵活性高,后者准确率和响应速度更有优势。

场景四:Doris × MCP - AI能力的"万能转换器"

"又要开发一个Doris AI应用接口?我的项目排期已经满了!"

Doris技术团队在对接各种AI能力时,常常面临技术栈割裂、开发周期长的困境。MCP(模型上下文协议)犹如AI世界的"USB转换器",让不同工具和数据源能无缝对接。

Doris × MCP为企业带来了全新的AI能力整合方式:

"上线一个智能数据助手?半天搞定!"

系统架构师小王乐呵呵地说。他只需:

图片

1️⃣ 使用兼容MCP Server的Client(SelectDB/Doris Studio规划中)

2️⃣ 连接到Doris MCP Server

3️⃣ 立刻获取多种AI能力:NL2SQL、查询性能诊断、智能运维等

某金融科技公司利用这种组合,将原本需要2周开发的Doris ChatBI功能,压缩到了1天内完成上线。系统还能智能分析SQL执行计划,提供定制化优化建议,可大幅度提升数据库性能。

Doris MCP协议标准化了AI与Doris数据之间的交互,使企业能以更低的成本、更快的速度构建AI应用,真正实现了"即插即用"的AI能力。

预计在4月份,正式发布Doris MCP MCP Server&Client,敬请期待!

场景五:Doris × AI Observability - 大模型应用的"黑匣子"

"大模型应用昨晚2点突然失效了,用户投诉不断,但我们完全不知道发生了什么!"

随着AI应用在企业中的普及,可观测性成为一大挑战。大模型调用链复杂,故障诊断困难

Doris提供了高性能、低成本的可观测性解决方案:

图片

1️⃣ 存储和分析大量日志、Trace和指标数据

2️⃣ 与OpenTelemetry、ELK等生态集成

3️⃣ 提供标准SQL接口支持Grafana可视化

一个经典场景:某电商平台的AI推荐系统出现异常。运维团队通过Doris × AI Observability快速定位到问题:GPU资源在某时段被其他应用占用,导致推理延迟增加,进而影响了整个推荐链路。

完整的调用链Trace和资源监控数据让诊断变得直观高效

结语

随着技术的不断演进,Doris与AI的融合还将向更深层次发展:

  • 向量语义检索:更完善更精准的相似度检索

  • 数据准备与特征存储:为AI模型训练提供高效数据支持

  • 湖仓一体集成:无界对接更多的结构化和非结构化数据源

  • ChatBI与Agent能力增强:更智能的数据分析体验

  • Doris MCP Server&Client:预计在4月正式开源

  • ......

这些演进方向正在重塑企业的数据分析与AI应用方式,让数据价值最大化。不仅解决了"数据孤岛"和"AI幻觉"等传统痛点,同时也开创了数据智能化的新范式。

无论你是数据工程师、数据分析师,还是业务决策者,这场数据与AI智能的共舞都值得你深度。

 

 大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书 

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。



4.LLM面试题和面经合集


这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。



👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值