Chroma项目中的Embeddings技术指南：从原理到实践

柯晶辰Godfrey

于 2025-06-01 09:16:51 发布

阅读量267

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00403/article/details/148362732

版权

Chroma项目中的Embeddings技术指南：从原理到实践

chroma the AI-native open-source embedding database 项目地址: https://gitcode.com/gh_mirrors/chrom/chroma

什么是Embeddings？

Embeddings（嵌入向量）是AI领域中表示各种数据的核心方式，它将文本、图像（未来还将支持音频和视频）转换为高维向量空间中的数值表示。这种表示方式使得计算机能够理解和处理复杂的语义信息，是构建AI应用的基础。

在Chroma项目中，Embeddings扮演着关键角色，它作为向量数据库的核心数据类型，支持各种AI工具和算法的高效运行。

Chroma中的Embedding功能

Chroma提供了多种Embedding生成方式，主要分为两大类：

本地运行模型：如默认的all-MiniLM-L6-v2模型，数据完全在本地处理
API调用方式：通过封装主流AI服务提供商的接口实现

默认Embedding模型

Chroma默认使用Sentence Transformers的all-MiniLM-L6-v2模型，这是一个轻量级但性能优异的句子嵌入模型：

from chromadb.utils import embedding_functions
default_ef = embedding_functions.DefaultEmbeddingFunction()

该模型特点：

自动下载模型文件（首次使用时）
支持句子和文档级别的嵌入
完全在本地运行，无需网络连接
输出768维的嵌入向量

主流Embedding服务集成

Chroma目前支持多种流行的Embedding服务：

| 服务提供商 | Python支持 | JavaScript支持 | |-------------------|------------|----------------| | OpenAI | ✅ | ✅ | | Google Generative AI | ✅ | ✅ | | Cohere | ✅ | ✅ | | Hugging Face | ✅ | ❌ | | Instructor | ✅ | ❌ | | Hugging Face服务器 | ✅ | ✅ | | Jina AI | ✅ | ✅ |

使用Sentence Transformers模型

除了默认模型，Chroma支持使用任何Sentence Transformers模型：

sentence_transformer_ef = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name="all-MiniLM-L6-v2"
)

选择模型时的考虑因素：

模型大小：影响推理速度和内存占用
语言支持：部分模型专为特定语言优化
任务类型：不同模型在不同NLP任务上表现各异

自定义Embedding函数

Python实现

在Python中，只需实现EmbeddingFunction协议即可创建自定义Embedding函数：

from chromadb import Documents, EmbeddingFunction, Embeddings

class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        # 实现你的嵌入逻辑
        return embeddings

JavaScript实现

JavaScript中的实现同样简单：

class MyEmbeddingFunction {
  private api_key: string;

  constructor(api_key: string) {
    this.api_key = api_key;
  }

  public async generate(texts: string[]): Promise<number[][]> {
    // 实现嵌入生成逻辑
    return embeddings;
  }
}

最佳实践建议

性能考量：
- 本地模型适合数据隐私要求高的场景
- API方式适合需要最新模型能力的应用
调试技巧：
- 可以直接调用Embedding函数检查输出
```
embeddings = default_ef(["测试文本"])
```
模型选择：
- 英文内容：all-MiniLM-L6-v2是不错的默认选择
- 中文内容：考虑使用paraphrase-multilingual-MiniLM-L12-v2
扩展性：
- 鼓励将通用的自定义Embedding函数贡献到社区
- 复杂场景可以考虑组合多个Embedding函数