微信向量检索分析一体化数仓探索：OLAP For Embedding

最新推荐文章于 2025-03-06 09:52:27 发布

AI周红伟

最新推荐文章于 2025-03-06 09:52:27 发布

阅读量1k

点赞数 7

文章标签：微信 embedding

本文链接：https://blog.csdn.net/starzhou/article/details/136911591

版权

作者：WeOLAP 团队数据挖掘团队

擅长 OLAP 分析的 ClickHouse 不仅可以用于 vector search，还可承担起整条 embedding 的加工处理工作,All in one Pipeline 也让速度远超传统批处理框架数倍；检索性能虽无法与专业 sim 检索服务相媲美，但因“搜索分析一体化”，让它在 AI 近线处理占据一席之地。本文工作由 vcc、 levi、 longpo、 zifei、 luis 等人协同完成

背景

在过去的一年里，大型语言模型 (LLM) 以及 ChatGPT 等产品吸引了全世界的想象力，推动新一轮技术浪潮。embedding 和 vector search(向量搜索)的概念是支持推荐、问答、图像搜索等功能的核心。我们发现社区中“向量搜索”的兴趣显著增加;具体来说，大家感兴趣了解的是：何时需要专门向量数据库，何时不需要？相比于语义性检索引擎（ES）与专业的高性能检索服务，OLAP 数仓的向量检索能力在场景有何区别？

在调研对 ClickHouse 对向量检索/加工能力时，我们惊讶地发现，现代 OLAP 数仓已具在其内部独立搭建 CLIP 等主流机器学习模型的数据处理全流程能力（图 1），包含 embedding 推理生成，ETL 加工处理，召回检索，科学分析场景，实现搜索分析体验一体化！

于是，我们协助画像业务进行 Pipeline 架构改造，实现画像 embedding 从“季度更新”到“日更新”的功能架构升级，以及 All in One 分析处理体验；这让画像刻画“更实时、更准确”，诸多业务指标显著提升！

从向量检索说起

文本搜索：传统的检索是基于文本分词的精确匹配；早期全文检索引擎都是基于不同的索引方式（倒排索引，BTree 等）加上精确匹配和排序算法（BM25、TF-IDF）等实现的，代表如早期的 Elastic Search (ES)；但它的局限性很显著，就是无法表达图像，音频，近似词等更多种模态中的通用信息；

什么是 Embedding？

“万物皆可 Embedding，向量是 AI 理解世界的通用模式 ”：""An embedding is a mapping from discrete objects, such as words, to vectors of real numbers. — Tensorflow 社区

可以看到，Embedding 是真实世界中“离散”的实体，映射到“连续”向量空间的一种表示。这种“连续性”极大地增强了表示的易用性：

Sematic Search

语义检索：通用的语义检索，通过深度学习的训练，将真实世界数字化后的离散特征提取出来，投影到数学空间上，同时神奇的保留距离之间相似度的能力，这就是 embedding；例如：”图片“通过 embedding 映射在高维空间，图片的相似度检索就会变成“高维空间”Top K“距离求解”问题，也就是近似向量检索问题(Approximate Nearest Neighbor Search, ANNS)。在大模型出现之前，向量检索已经成熟并广泛应用在“推荐”、“文本/视频搜索”等领域了：

向量数据库介绍：

ChatGPT 掀起的大模型浪潮，embedding 在其中的核心地位，使得向量化数据库又成为时代新宠，各大数据库厂商和资本争相涌入：

如果说 LLM 是容易失忆的大脑，向量数据库就是海马体: 一方面，LLM 能浏览专用数据与知识，解决 Hallucination 的问题使回答更精准；另一方面，LLM 能回忆自己过往的经验与历史，更了解用户的需求，通过反思实现更好的个性化 AI Native : LLM + 交互 + 记忆（专有数据 + 个性化） + 多模态 Form Pinecone

大模型离不开向量检索：

多数厂商认为，为解决 LLM 无记忆，数据隐私等问题，向量数据库会成为未来大模型必然用到的组件，正如关系型数据库在 web 中的应用一样。为什么说大模型“没有记忆”，需要向量数据库呢？熟悉 LLM 的算法同学都了解，原生 LLM 的强大信息处理能力，仅限于有限的上下文“黄金窗口”；而有了向量数据库，LLM 可以检索到并组织起相关的“记忆碎片”，从而关联到海量的内容放入这个黄金窗口，因此也被人们誉为大模型的“海马体”。此外，embedding 作为一种数据脱敏的媒介，也可以降低中间数据传输的敏感性，对于数据隐私有一定的保护能力。看一个实际样例：