6 月 21 日,OpenAI 官方宣布完成对实时分析数据库 Rockset 的收购,表示将整合 Rockset 产品至 OpenAI 所有产品线。
据悉,Rockset 是以数据索引及查询功能而闻名,由前 Facebook 工程师 Venkat Venkataramani、 Tudor Bosman 和 Dhruba Borthakur 于 2016 年共同创立,提供基于云的实时分析数据库 RocksDB,允许开发人员构建数据密集型应用程序。
「这次收购传递了一个明确的信号——市场对实时数据分析的高度重视。通过收购 Rockset,OpenAI 吸纳了一个擅长实时分析和 RAG 的专家团队进行人才整合。
更重要的是,可以看出当前 AI 领域,对实时数据的访问和处理是非常重要的一环。数据是 AI 发展的核心驱动力,而成熟的 OLAP 产品能够将数据与 AI 进行深度融合。」
腾讯云副总裁黄世飞谈到,“腾讯云大数据也在践行 AI+BigData 深度融合,进一步赋能客户充分释放数据价值。”
作为一款国外早期的实时数据仓库厂商,Rockset 的特点是能够提供实时数据索引和查询的能力,FaceBook 的母公司 Meta 也是其重要客户。
我们来看看 Rockset 有什么样的特点。
● 实时数据分析:Rockset 允许用户对大量新传入的数据持续运行 SQL 查询,实现实时数据的即时分析。
● 全索引能力:Rockset 可以自动在任何数据上构建 Converged Index,支持大规模的高性能搜索和分析,以及任意维度组合的检索、校验和计算。
● 多维索引:Rockset 采用多维索引策略,即对数据库中每个不同的列都建立索引,从而提高查询效率,比传统数据库快 5 到 10 倍。
● 云原生架构:Rockset 作为基于云原生架构的实时分析引擎,提供了低成本和按需付费的优势,有助于降低大模型数据分析的消费成本。云原生架构允许利用存储空间换取处理时间,适应了当前存储成本相对较低的现状。
● 无需预定义架构的实时查询:Rockset 能够从 Kafka、MongoDB、DynamoDB 和 S3 等产品中提取和索引数据,实现无需预定义架构的实时查询。
● 支持多种数据源:Rockset 支持从多种数据源导入数据,包括结构化、半结构化、地理和时间序列数据。
● 向量数据类型和搜索功能:Rockset 增加了向量数据类型和向量搜索功能,这使得它能够为大型语言模型如 ChatGPT 提供数据,解锁实时数据分析用例。
作为一款实时分析的数仓产品,Rockset 刚好有效解决了目前大模型在企业客户中落地的几个痛点。基于大语言模型 LLM 构建的产品已经具有很强的语言能力,但依然有缺陷:
● 训练数据集是静态的-大模型在训练时只能使用当前时间点之前的数据作为数据集,数据的时效性无法保证,也就是说大模型无法感知训练后的更新的数据和信息。
● 缺少特定领域的知识-对大模型进行训练时使用的是互联网上的公域数据,无法对私域数据进行训练,因此大模型的通用性强但针对特定领域的问题缺少专业的回答。
● 缺少长期记忆——大模型仅支持有限的 token 长度,因此虽然具备一定程度的短期记忆,但是由于长期记忆的缺失,我们很难和大模型无法进行多轮对话。
● 成本高昂——不管是训练一个大模型还是进行 Fine- tuning,成本都是很高昂的,如果数据更新的频率较高,经常去更新模型也会带来更多的成本。
因此,Rockset 可以作为大模型的实时外部知识库,给大模型传递时效性更高、信息密度更大的多模态数据,用来管理、存储、查询和搜索结构化及非结构化数据。
相比其他产品,Rockset 倾向于提供超大规模下的实时分析及向量检索能力,「这就解决了当前大模型要在企业中落地时的几大痛点:快速整合不同来源数据、解决大模型实时数据感知问题、提供高效数据处理能力。」
OpenAI 收购 Rockset 的行动彰显了其前瞻性战略布局,此举预示着 OpenAI 在未来提升搜索能力、加速企业级应用的创新与优化的潜力。
「由此看来,RAG 并不意味着传统数据库技术的发展会因此停滞。相反, RAG 技术的发展和传统数据库技术的改进可以并行不悖,共同推动数据分析和信息检索领域向前发展。传统数据库(OLAP 或 OLTP)将在 AI 浪潮中不断发展,成为 AI 时代最重要的组成部分之一。」腾讯云副总裁黄世飞表示。
腾讯云 TChouse-C 实时分析+
向量检索实践
我们很高兴地看到,作为一款实时分析数据仓库产品,腾讯云 TCHouse-C 的实时数据分析、存算分离架构、支持向量检索、数据压缩等功能,完美契合了大模型对 OLAP 的需求。
腾讯云数据仓库 TCHouse-C 基于 ClickHouse 优异的查询性能,查询效率数倍于传统数据仓库。支持基于 SQL 的向量检索,并提供了一系列的功能来帮助用户编写分析查询。其中一些函数和数据结构执行向量之间的距离操作,使 ClickHouse 可以被用于向量检索。
使用 TCHouse-C 有什么优势呢?事实上,在向量检索实践中如果仅仅靠嵌入搜索的话效率是很低的,结合元数据进行过滤、聚合将会有更好的效果。
由于完全并行化的查询管道,TCHouse-C 可以非常快速地处理向量搜索操作,支持高压缩级别,通过自定义压缩编解码器进行调整,使得可以存储和查询非常大的数据集。
TCHouse-C 不受内存限制,允许查询多 TB 的包含嵌入的数据集。计算两个向量之间的距离的能力只是另一个 SQL 函数,并且可以有效地与更传统的 SQL 过滤和聚合能力结合起来。这允许向量与元数据一起存储和查询,甚至与丰富的文本一起,从而支持各种各样的用例和应用。
最后,TCHouse-C 索引优化,如近似最近邻(ANN)索引,支持更快的近似向量匹配,并提供了一个有望进一步增强 TCHouse-C 的向量匹配能力的有前景的发展。
我们来看看应该如何通过使用腾讯云 TCHouse-C 结合 LLM 模型来实现向量检索增强,接下来演示如何基于 LangChain 实现 AI 问答,提供结构化和非结构化数据统一管理分析的方案。
import osfrom langchain.embeddings.openai import OpenAIEmbeddingsfrom langchain.text_splitter import CharacterTextSplitterfrom langchain.vectorstores import Clickhouse, ClickhouseSettingsfrom langchain.document_loaders import TextLoaderos.environ['OPENAI_API_KEY'] = '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'loader = TextLoader('./data.txt')documents = loader.load()text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)docs = text_splitter.split_documents(documents)embeddings = OpenAIEmbeddings()for d in docs: d.metadata = {'some': 'metadata'}settings = ClickhouseSettings(host='127.0.0.1', port=8123, table="vector_search_table")docsearch = Clickhouse.from_documents(docs, embeddings, config=settings)query = "What did the president say about Ketanji Brown Jackson"docs = docsearch.similarity_search(query)print('---------------------')print(docs[0].page_content)
●导入数据
●向文档提问,快速返回检索结果,轻量敏捷实现向量检索:
如果你也在寻找一款高性价比的 OLAP 产品,欢迎来体验、试用腾讯云 TCHouse-C,点击文末「阅读原文」,立即试用!