使用 HuggingFace 库进行本地嵌入向量生成

最新推荐文章于 2025-03-22 09:34:09 发布

qq_37836323

最新推荐文章于 2025-03-22 09:34:09 发布

阅读量5.4k

点赞数 12

文章标签： python 人工智能开发语言

本文链接：https://blog.csdn.net/qq_29929123/article/details/139792223

版权

在当今的AI和机器学习应用中，嵌入向量（embeddings）已成为不可或缺的一部分。嵌入向量能够将文本等高维数据转换为低维稠密向量，从而便于计算和分析。在本文中，我们将介绍如何使用 HuggingFace 库在本地生成嵌入向量，并演示相关代码。

环境准备

首先，我们需要安装一些必要的依赖库。可以通过以下命令进行安装：

# 安装必要的库
!pip install sentence-transformers
!pip install llama-index
!pip install optimum[exporters]
!pip install InstructorEmbedding
!pip install -U sentence-transformers==2.2.2

使用 HuggingFace 嵌入模型

HuggingFace 提供了多种嵌入模型。以下是使用基础 HuggingFace 嵌入模型的代码示例：

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

# 加载 BAAI/bge-small-en-v1.5 模型
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-small-en-v1.5")

# 获取文本的嵌入向量
embeddings = embed_model.get_text_embedding("Hello World!")
print(len(embeddings))
print(embeddings[:5])

使用指令嵌入模型

如果希望嵌入向量能够根据指令进行调整，可以使用指令嵌入模型：

from llama_index.embeddings.instructor import InstructorEmbedding

embed_model = InstructorEmbedding(model_name="hkunlp/instructor-base")

# 获取文本的嵌入向量
embeddings = embed_model.get_text_embedding("Hello World!")
print(len(embeddings))
print(embeddings[:5])