生成式AI技术的横空出世,带动了新一波创业浪潮。在这轮生成式AI创业竞争中,拥有优秀大语言模型的公司备受追捧。据统计,自ChatGPT 3.5问世以来,短短四个月内,美国人工智能领域发生了近500笔投资,总金额接近160亿美元,平均每个项目超过3000万美元。对于商人来说,向量数据库显然是一个风口。
随着大型AI语言模型的崛起,向量数据库成为了解决模型“幻觉”问题的关键。
一、向量数据库的原理
向量数据库(Vector Database),也称为向量相似度搜索引擎或近似最近邻(ANN)搜索数据库,是一种专门用来处理向量嵌入的数据库。它通过比较值并找到彼此相似的值来索引向量,以便于搜索和检索。与传统数据库不同,向量数据库可以处理复杂数据,如文档、图像、视频和网页上的纯文本等非结构化数据,为扩展大语言模型(如ChatGPT所使用的GPT-4)提供了重要支持。
向量数据库的工作原理可以通过CPU和GPU的工作原理进行类比。CPU和GPU分别是计算机的运算和图形处理核心,而向量数据库则是大模型的记忆和存储核心。在大模型学习阶段,向量数据库接收多模态数据进行向量化表示,让大模型在训练时能够更高效地调用和处理数据。通过多线程机制和矩阵运算,GPU提供了强大的计算能力,让大模型的训练变得更加快速和高效。
二、向量数据库怎么火起来的
2023年3月21日,黄仁勋在GPU 技术大会宣布今年将要推出RAFT向量数据库,黄他认为:" 对于自研大型语言模型的组织而言,向量数据库至关重要。" 创业者和厂商也将目光投向向量数据库项目的研发。
拥有超大规模数据量的大语言模型和多模态数据的需求推动了向量数据库的崛起。Zilliz成为全球最流行的开源向量数据库,累计融资1.03亿美元,估值6亿美元,并成为NVIDIA官方合作伙伴。Milvus和Zilliz Cloud作为首批插件合作伙伴,加速了向量数据库的发展。Qdrant、Chroma、Weaviate等向量数据库公司相继获得融资,显示了资本市场对向量数据库的热烈关注。
三、向量数据库的重要性
向量数据库是大模型的记忆与灵魂,对于解决大模型的“幻觉”问题至关重要。随着AI技术的不断发展,大模型在各个行业的应用场景不断增加,需要处理的多模态数据也日益复杂。向量数据库作为AI理解世界的通用数据形式,将在多个领域发挥关键作用。
在未来,多模态向量化将成为向量数据库的重要趋势。通过将多模态数据向量化压缩,让大模型在学习和训练时更高效地调用,从而让大模型变得更加智能和懂得回答问题。向量数据库的发展前景广阔,有望成为AI领域的重要基建,推动AI技术的进一步发展。
四、向量数据库公司有哪些
7月4日,腾讯云正式发布向量数据库Tencent Cloud VectorDB,预计8月上线腾讯云官网。
Fabarta ArcNeural
Fabarta 是一家成立于中国的AI基础设施公司,旗下有包含 ArcNeural在内的多款AI时代的数据产品。
Pinecone
Pinecone是一家成立于美国的向量数据库初创公司,产品名称是Pinecone Alternate,目前非常火的AutoGPT就集成了它的产品。Pinecone也是OpenAl的合作方,用户可以通过OpenAl的Embedding API生成语言嵌入,然后在Pinecone中为这些嵌入建立索引,以实现快速且可扩展的向量搜索。
Weaviate
Weaviate总部位于荷兰阿姆斯特丹,产品是一款名为Weaviate MongoDB的托管/自托管向量数推库,可存储多达数十亿个向量;在今年早些时候,Weaviate推出了ChatGPT的Plug in插件;此公司业务还包括Weaviate云服务--为开发人员提供Weaviate数据库的全部功能,而无需任何操作开销。
Chroma
Chroma是一个基于向量检索库实现的轻量级向量数据库,内置了入门所需的一切,并提供了简的API。目前只支持CPU计算,但可以利用乘积量化的方法,将一个向量的维度切成多段,每分别进行k-means,从而减少存储空间和提高检索效率,它还可以与LangChain集成,实现基于语言模型的应用。Chroma的优点是易用、轻量、智能,缺点是功能相对简单、不支持GPU加速。
Zilliz
Zilliz专注于研发面向AI应用的向量数据库系统,旗下有开源产品Milvus、商业产品Zilliz Cloud等被广泛应用于计算机视觉、NLP、推荐系统、搜索引擎、自动驾驶和生物制药等领域。Milvus是一款分布式向量云原生数据库,能提供数百亿条向量数据的毫秒级查询。
Qdrant
Qdrant提供用于非结构化数据的开源托班/自托管向量搜索引擎和数据库。Qdrant的向量数据库过实时和真实世界的数据来扩展ChatGPT等基于大语言模型的应用程序的“知识库”,从而构建更先进的应用程序。
FAISS
Faiss由Facebook Al Research团队开发的开源向量搜索库,为稠密向量提供高效相似度搜索和器类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库,在GitHub上获得了超过1.5万预Star;但需要自己构建和管理索引,支持CPU和GPU计算。
总结
大模型时代,向量数据库的崛起与发展展现出了无限的潜力。它为大型AI语言模型提供了记忆与灵魂,解决了模型“幻觉”的问题。随着AI技术的进步,向量数据库将在多个领域发挥关键作用,推动AI技术的发展。向量数据库的火爆发展和资本热度显示了其在市场上的重要地位,也为其未来发展奠定了坚实基础。