AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南

在人工智能大模型领域, 离不开NLP技术,在NLP中词向量是一种基本元素,如何存储这些元素呢? 可以使用向量数据库ChromeDB
5637557320fbfb3292307735f0b8acd53a791241.png@112w_112h.png

Chroma

Chroma 是 AI 原生开源矢量数据库。Chroma 通过为 LLM 提供知识、事实和技能,使构建 LLM 应用程序变得容易。同时也是实现大模型RAG技术方案的一种有效工具。
在这里插入图片描述

简介

  • Chrome提供以下能力:

    1. 存储嵌入类型数据(embeddings)和其元数据
    2. 嵌入(embed)文档和查询
    3. 对嵌入类型的检索
  • Chrome 的原则:

    1. 对用户的简单性,并保障开发效率
    2. 同时拥有较好的性能
  • Chroma 作为服务器运行,同时提供客户端的SDK(支持Java, Go,Python, Rust等多种语言)。

安装与运行

  1. 首先要确保有安装有Python运行环境
  2. 安装Chroma模块
    pip install chromadb
    
  3. 创建数据库存储目录
    mkdir db_data
    
  4. 运行Chroma服务并指定路径
    chroma run --path db_data
    

如图所示,Chroma服务就成功启动啦!😄
在这里插入图片描述

Chroma作为服务常态化运行

chromadb.service配置文件放在/etc/systemd/system/目录并用命令systemctl start chromadb启动服务即可。
附赠一份配置模板,具体参数按实际情况配置即可。

[Unit]
Description=ChromaDB Service
After=network-online.target

[Service]
ExecStart=/root/anachonda3/bin/chroma run --path /chromadb/db_data
User=root
Group=root
Restart=always
RestartSec=3
export CHROMA_SERVER_HOST=127.0.0.1
Environment=CHROMA_SERVER_HTTP_PORT=8881
ANONYMIZED_TELEMETRY=False
[Install]
WantedBy=default.target

Python客户端使用指南

  1. 导入模块并创建数据库连接
    import chromadb
    chroma_client = chromadb.Client()
    # chroma_client = chromadb.HttpClient(host='localhost', port=8000)
    
  2. 创建数据库集合(collection)
    collection = chroma_client.create_collection(name="my_collection")
    #chroma_client = chromadb.PersistentClient(path="/path/to/save/to") # 设置持久化路径
    
    
    因为Chroma 在 url 中使用集合名称,因此命名有一些限制:
    • 名称的长度必须介于 3 到 63 个字符之间。
    • 名称必须以小写字母或数字开头和结尾,并且中间可以包含点、破折号和下划线。
    • 名称不得包含两个连续的点。
    • 名称不得是有效的 IP 地址。
  • 集合的一些便捷方法
# 返回集合中前10项的一个列表
collection.peek() 
# 返回集合中的项目个数
collection.count()
# 重命名集合
collection.modify(name="new_name") 
  1. 添加文档(documents)到集合(collection)中
    collection.add(
    embeddings=[[1.2, 2.3, 4.5], [6.7, 8.2, 9.2]],
    documents=["This is a document", "This is another document"],
    metadatas=[{"source": "my_source"}, {"source": "my_source"}],
    ids=["id1", "id2"]
    )
    
  2. 查询文档 n 个最相近的结果
    results = collection.query(
    query_texts=["This is a query document"],
    n_results=2
    )
    
  3. 便捷方法
    chroma_client.heartbeat() # 纳秒级心跳,确保与服务端连接状态
    chroma_client.reset() # 重置数据库,清除已有信息
    
查询集合

使用.query方法查询集合

collection.query(
    query_embeddings=[[11.1, 12.1, 13.1],[1.1, 2.3, 3.2], ...],
    n_results=10,
    where={"metadata_field": "is_equal_to_this"},
    where_document={"$contains":"search_string"}
)

更新集合数据

使用.update方法更新集合

collection.update(
    ids=["id1", "id2", "id3", ...],
    embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],
    metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],
    documents=["doc1", "doc2", "doc3", ...],
)

使用upsert更新数据,若不存在则新增。

collection.upsert(
    ids=["id1", "id2", "id3", ...],
    embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],
    metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],
    documents=["doc1", "doc2", "doc3", ...],
)
从集合中删除数据

使用delete方法删除数据

collection.delete(
    ids=["id1", "id2", "id3",...],
	where={"chapter": "20"}
)

总结

通过这次学习,了解到了使用ChromeDB的基本方法,真是太好啦。
c8e919a83f19aa615d0a24cb1e752a449561.gif


欢迎关注 公-众-号【编程之舞】,获取更多技术资源。
在这里插入图片描述

### 将OllamaEmbeddingChromaDB集成的方法 为了实现OllamaEmbeddingChromaDB的有效集成,需理解两者各自的功能以及它们如何协同工作来增强应用程序的数据处理能力。 #### 1. OllamaEmbedding简介 OllamaEmbedding是一种假设的技术名称,在此背景下可以认为是指一种用于生成向量表示(embeddings)的技术或库。这些嵌入通常是从文本或其他形式的数据中提取特征并将其转换成多维空间中的点,使得相似的内容在该空间里彼此靠近[^4]。 #### 2. ChromaDB概述 ChromaDB是一个专为高效存储和检索高维度数据设计的数据库系统。它特别适用于管理由机器学习模型产生的大量复杂结构化信息,比如图像、音频文件或者自然语言处理任务中的词向量等。通过索引机制优化查询性能,支持快速查找最接近给定输入项的结果集[^5]。 #### 3. 集成方案 要使这两种技术结合起来发挥作用: - **创建管道**:构建一条从原始数据到最终应用的工作流管线。这可能涉及预处理阶段,其中源材料被清理和标准化;接着利用OllamaEmbedding工具将经过准备后的资料转化为相应的向量表达。 - **存入ChromaDB**:一旦获得了合适的embedding输出,则可按照文档说明导入至ChromaDB实例之中保存起来以便后续访问。确保遵循官方指南完成安装配置过程,并适当调整参数以适应具体需求场景下的最佳实践建议[^6]。 - **执行搜索操作**:当需要基于某些条件筛选记录时,可以通过API接口提交请求给ChromaDB服务器端口,指定目标属性作为匹配依据之一。返回的对象列表即代表满足设定标准的最佳候选对象集合。 ```python import chromadb from ollama_embedding import get_embeddings # 假设这是获取embeddings的方式 # 初始化chromadb客户端连接 client = chromadb.Client() # 获取待插入的新条目embeddings new_item_vector = get_embeddings("example text") # 向chromadb添加新纪录 collection_name = 'my_collection' client.add(collection=collection_name, documents=[{"vector": new_item_vector}]) # 查询最近邻节点 query_result = client.query( collection=collection_name, q=[[0.1]*len(new_item_vector)], # 这里的q应该替换为你实际想要比较的目标向量 n_results=5 # 返回前五个最相近的结果 ) print(query_result) ```
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Spaceack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值