在本地存储chroma后，读取失败或者函数无法使用的解决方法

最新推荐文章于 2025-03-04 22:43:31 发布

柳烈的综艺指南

最新推荐文章于 2025-03-04 22:43:31 发布

阅读量1.8k

点赞数 10

文章标签： langchain pytorch 人工智能数据库

本文链接：https://blog.csdn.net/m0_56985253/article/details/135936145

版权

基本代码：
存入：

embeddings = ModelScopeEmbeddings()
dir = 存储地址
db = Chroma.from_documents(documents, embedding=embeddings, persist_directory=dir)
db.persist()

存入后，会新出一个文件夹，文件夹内有三个pkl文件，一个bin文件和两个parquet文件

读取：

db = Chroma(persist_directory= dir, embedding_function=embeddings)
docs = db.similarity_search(text, k=5)

问题：但是博主在如上操作时，使用db.similarity_search()时得到的docs为空，并且原文件夹的index文件夹中缺少bin文件

解决方法：把dir的文件名改为英文，重新存入，便可正常读取

注意：不需要更改documens里面的原文为英文（中文也是可以正常使用的），只需要改存储地址的名字为英文即可。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

柳烈的综艺指南

关注关注

10
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

chromadb向量数据库搭建和使用

fudaihb的博客

02-13

1979

v ./chromadb:/chroma/chroma 将服务器存储路径./chromadb映射到容器路径/chroma/chroma。--env-file ./.chroma_env 容器服务chromadb运行时的相关配置。-p 8001:8000 将服务器8001端口映射到容器8000端口。需要安装依赖：pip install chromadb-client。

注意 llamaIndex 中 Chroma 的坑！

hawk2014bj的博客

06-23

747

本文使用的 JinaAI的 Embedding Model，Document 解析 Node 用的是默认方式，按段落、句子进行切分，对于纯文本这样处理是可以，如果有图和表格，就要选用其他的策略。要注意的点是，如果不指定 Chroma Embedding 的模型，默认使用的是 all-MiniLM-L6-v2 Embedding 模型，这样就会导致搜索时数据非常不准确，topk 都出不来。相似度算法设置为 Cosine，Chroma 默认的算法是 L2。

1 条评论您还未登录，请先登录后发表或查看评论

RAG实践（二）安装并使用向量数据库（chromadb）

ShuaiQIXiaoLuo的博客

01-14

4077

chromadb 是一个开源的向量数据库，专门用于存储和检索高维向量数据，轻量级，适合快速原型开发，适合新手练习。

大模型工程师学习日记（十一）：FAISS 高效相似度搜索和密集向量聚类的库

最新发布

qq_75269600的博客

03-04

721

是一个用于高效相似度搜索和密集向量聚类的库。它包含了在任意大小的向量集合中进行搜索的算法，甚至可以处理可能无法完全放入内存的向量集合。它还包含用于评估和参数调整的支持代码。下面展示如何使用与FAISS向量数据库相关的功能。它将展示特定于此集成的功能。在学习完这些内容后，探索可能会很有帮助，以了解如何将这个向量存储作为更大链条的一部分来使用。

【亲测解决】chroma向量数据库系列，ValueError: You are using a deprecated configuration of Chroma.

不负如来不负卿

12-25

1200

chroma向量数据库系列

langchain Chroma 构建本地向量数据库

TuringEvo专栏

04-01

2751

/docs/第八章-骨骼关节和肌肉疾病.docx。./docs/第十九章-耳鼻咽喉疾病.docx。./docs/第十六章-感染性疾病.docx。文档在当前代码目录下。

chroma写入docs报错

XD的博客

12-25

445

] which is a list in upsert.\n\nTry filtering complex metadata from the document using langchain_community.vectorstores.utils.filter_complex_metadata.\n’这里使用filter_complex_metadata 对 docs当中的复杂格式的Metadata字段进行了过滤来解决这个问题。

chrome 调试错行问题解决

yzqexxq的博客

03-09

1457

今天在mac的chrome上面进行调试，发现断点停下来的行和打断点的行错开了一行，起初搜网站说是因为部分文件只有换行，没有回车导致的，于是写了个脚本将回车加上了，发现的确解决了问题，可是mac上的文件都是只有换行，没有回车的，后面一想也不是这个原因，应该是文件日期修改了导致的，于是用一个命令将js文件全部改为当前时间，错行问题就解决了，cd到要更新日期的根目录，使用命令find ./ -name

CHROMA 3380P测试机编程资料

09-05

READ_TMU_LOG_MEM_BLOCK函数用于读取TMU日志存储块，支持对特定事件进行起始事件、结束事件和PEL数据的获取。 CHROMA 3380P测试机的TMU功能为半导体测试提供了强大的支持，能够帮助工程师高效、精确地完成测试任务...

使用langchain和本地部署的lamma3+chroma做RAG

liupras的博客

10-03

1058

在做RAG(RAG，Retrieval Augmented Generation,即：增强生成)系统时，经常会遇到数据安全、隐私保护等问题，此时使用本地部署的大模型和本地部署的矢量数据库时很必要的

chroma驱动工具包

08-28

5. `Chr6330A.h`：头文件，通常包含C或C++编程中用到的函数声明和常量定义，与Chroma 6330A相关的函数库接口在此定义。 6. `Chr6330A.lib`：库文件，可能包含了预编译的函数实现，供应用程序链接使用，以实现对...

逐像素点高效读取yuv文件的方法

在编程实现读取YUV文件的过程中，通常使用C/C++等语言，结合文件I/O操作函数来实现。以下是一个简单的C++示例代码片段，展示了如何打开并逐个像素读取YUV文件： ```cpp #include #include // 以4:2:0格式为例，...

Matlab实现YUV文件的读取与保存方法

在数字视频处理领域，YUV是一种常用的颜色编码方法，Y代表亮度信息（Luminance 或 Luma），而U和V代表色度信息（Chrominance 或 Chroma）。这种格式广泛应用于视频压缩和传输领域，尤其是在PAL和NTSC电视系统中。YUV...

python包chromadb安装失败总结

bigear_yu的博客

01-04

7140

错误1：Consider using the `--user` option or check the permissions. 错误2：ModuleNotFoundError: No module named 'chromadb'

ChromaDB教程

wangning0714的博客

04-22

1万+

向量存储是专门为有效地存储和检索向量嵌入而设计的数据库。之所以需要它们，是因为像 SQL 这样的传统数据库没有针对存储和查询大型向量数据进行优化。嵌入在高维空间中以数字向量格式表示数据（通常是非结构化数据，如文本）。传统的关系数据库不太适合存储和搜索这些向量表示。向量存储可以使用相似性算法对相似的向量进行索引和快速搜索。它允许应用程序在给定目标向量查询的情况下查找相关向量。在个性化聊天机器人的情况下，用户输入生成式 AI 模型的提示。然后，该模型使用相似性搜索算法在文档集合中搜索相似文本。

llm学习-3（向量数据库的使用）

qq_43728463的博客

07-02

1014

接着上面的常规操作加载环境变量---》获取所有路径---》加载文档---》切分文档。

Chroma获取向量索引的总数

cm2010_03_31的博客

08-15

1789

想要做一个pdf问答功能，如果pdf文章太短（低于1页）会导致chroma索引太短，在查询索引时会低于默认结果数（默认是4），会导致报错（chromadb.errors.NotEnoughElementsException: Number of requested results 4 cannot be greater than number of elements in index 1）

LangChain入门(四)-构建本地知识库问答机器人

热门推荐

Good Luck

05-04

2万+

因为是临时存入，所以当我们上面的代码执行完成后，上面的向量化后的数据将会丢失。如果想下次使用，那么就还需要再计算一次embeddings，这肯定不是我们想要的。其中hnswlib安装不了，去一下网站下载源码解压后，将hnswlib文件夹放在了项目的\Lib\site-packages文件夹中。上面的案例中我们只是将embeddings临时存进了Chroma，只需多加一个路径参数就可以实现持久化。在项目中新建一个data文件夹，里面放一个doc.txt，内容我摘抄一段朱炫大师兄的年少荒唐中的文章。

python安装chromadb报错

yuqian19861115的博客

08-20

2209

要注意安装的版本号和python版本是否兼容，如果不兼容还是会报错的。3 选择指定的版本号安装。2 查看安装包的版本。

chromadb读取本地数据库

01-18

### 使用 ChromaDB 读取本地数据库 ChromaDB 是一种用于向量相似度搜索的库，通常不直接处理传统关系型数据库的操作。然而，在某些情况下，可以将 ChromaDB 结合其他工具一起工作来间接实现对本地数据源的数据访问。对于具体操作流程而言，如果目标是从本地 SQL 数据库中提取结构化数据并将其转换成适合于 ChromaDB 处理的形式，则一般会经历如下过程： 1. **连接到本地数据库**：利用 Python 的 `sqlite3` 库或者其他适用于特定 RDBMS（如 MySQL 或者 Oracle）的驱动程序建立与本地存储引擎之间的通信链路[^2]。 2. **查询所需记录集**：通过编写 SQL 查询语句获取待分析的目标表格中的全部或部分字段值，并可选地应用过滤条件缩小检索范围。 3. **预处理原始资料**：把来自上述步骤的结果转化为嵌入式表示形式——即将每条记录映射至高维空间内的点位坐标；这一步骤可能涉及到特征工程以及降维算法的应用。 4. **加载进 ChromaDB 实例**：创建一个新的集合对象并将之前准备好的向量化样本批量导入其中以便后续执行近似最近邻搜索等任务。下面给出一段简单的代码片段展示如何基于 SQLite 进行基本交互，并假设已经安装好了必要的依赖包 (`chromadb`, `pandas`) 和配置好环境变量指向正确的 DB 文件路径： ```python import sqlite3 from chromadb import Collection, Client import pandas as pd # 建立SQLite连接 conn = sqlite3.connect('example.db') df = pd.read_sql_query("SELECT * FROM my_table", conn) client = Client() collection_name = "my_collection" if collection_name not in client.list_collections(): collection = client.create_collection(name=collection_name) else: collection = client.get_or_create_collection(collection_name) for index, row in df.iterrows(): vector_representation = convert_to_vector(row) # 自定义函数完成此转化逻辑 collection.add( ids=[str(index)], documents=[row['text_column']], # 文本列名替换为实际使用的名称 metadatas={"source": "local_db"}, embeddings=[vector_representation], ) def query_similar_items(text_input): embedding = generate_embedding_from_text(text_input) # 同样需要自定义方法生成输入字符串对应的向量表达 results = collection.query(query_embeddings=[embedding], n_results=5) return results ``` 这段脚本首先建立了同本地 SQLite 数据库存储文件间的链接，接着运用 Pandas 将整个表单内容载入内存形成 DataFrame 对象方便进一步加工处理。之后初始化了一个 ChromaDB 客户端实例并且尝试新建或者重用指定名字的空间容器用来容纳经过编码后的实体项。最后提供了一种方式让用户能够提交自由文本作为查询依据从而返回最接近匹配的一组候选列表。