如何使用Hugging Face上的BGE嵌入模型来生成文本嵌入

最新推荐文章于 2025-04-01 11:32:59 发布

cgsayuclv

最新推荐文章于 2025-04-01 11:32:59 发布

阅读量1.2k

点赞数 5

文章标签： easyui 前端 javascript python

本文链接：https://blog.csdn.net/cgsayuclv/article/details/142677562

版权

引言

在人工智能的海洋中，嵌入技术为我们提供了一种将文本数据转化为数值向量的强大工具。北京智源人工智能研究院（BAAI）发布的BGE模型在Hugging Face上脱颖而出，作为开源的嵌入模型，它提供了卓越的性能。本文将介绍如何在Hugging Face平台上使用BGE嵌入模型。

主要内容

什么是BGE模型？

BGE模型是由北京智源人工智能研究院开发的一系列嵌入模型，致力于将语言数据转化为特征丰富的向量表示。这些模型在自然语言处理任务中表现优异，并为研究和开发提供了极大的便利。

为什么选择Hugging Face？

Hugging Face是一个广泛使用的平台，提供了大量的NLP模型及其接口。通过其简单、直观的API，开发者可以轻松加载和使用各种模型。

如何安装所需的环境？

要使用BGE嵌入模型，首先需要安装sentence_transformers库：

%pip install --upgrade --quiet sentence_transformers

代码示例

接下来，我们将展示如何使用BGE模型来生成文本嵌入。

from langchain_community

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cgsayuclv

关注关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

langchain 模型加载HuggingFaceEmbeddings、文本切割RecursiveCharacterTextSplitter与向量数据库使用FAISS

weixin_42357472的博客

10-11

3816

参考： https://github.com/TommyTang930/LangChain_LLM_ChatBot https://python.langchain.com/docs/integrations/vectorstores/faiss这里对着类进行了改写，对中文切分更友好用于后续输入的就是chunks，是一个列表对于HuggingFace上的模型可以加载用作文本向量模型；这里加载的下载好的离线模型text2vec-base-chinese 3、向量数据库使用FAISS embedding就是上

探索Hugging Face上的BGE模型：如何使用这些顶尖的开源嵌入模型？

afTFODguAKBF的博客

10-12

596

BGE模型是由北京智源人工智能研究院开发的开源嵌入模型，专注于生成高质量的文本嵌入。这些模型适用于各种自然语言处理任务，如文本分类、情感分析等。BGE模型是强大的工具，可以显著提升文本处理任务的精度和效率。Hugging Face官方文档BAAI官方资源库。

参与评论您还未登录，请先登录后发表或查看评论

使用 HuggingFace 库进行本地嵌入向量生成

qq_29929123的博客

06-19

5329

在当今的AI和机器学习应用中，嵌入向量（embeddings）已成为不可或缺的一部分。嵌入向量能够将文本等高维数据转换为低维稠密向量，从而便于计算和分析。在本文中，我们将介绍如何使用 HuggingFace 库在本地生成嵌入向量，并演示相关代码。

在Hugging Face上使用BGE模型进行文本嵌入

ppoojjj的博客

10-30

464

BGE模型为文本嵌入提供了强大且高效的解决方案。通过Hugging Face的接口，开发者可以轻松地集成这些模型并将其应用于各种NLP任务。

【向量模型】开源通用向量模型BGE （BAAI General Embedding）

weixin_42430947的博客

03-09

1700

BGE为各类信息检索及大语言模型检索增强应用而打造，本文从多个维度详细解析 BGE 的特点与应用

BGE embeddings: 使用Hugging Face实现高效文本嵌入

ppoojjj的博客

08-28

1914

BGE模型是一系列为通用目的设计的文本嵌入模型。它们在各种NLP任务上表现出色，特别是在文本检索和语义相似度计算方面。BGE模型有多个版本，从小型到大型，适应不同的应用场景和计算资源限制。BGE embeddings 提供了一种强大而灵活的方式来生成高质量的文本表示。通过Hugging Face平台，我们可以轻松地集成这些模型到我们的NLP项目中。无论是进行文本分类、信息检索还是构建对话系统，BGE embeddings都能提供卓越的性能。

使用huggingface的text embedding models

我的博客

02-27

3847

使用huggingface的text embedding models

使用 Hugging Face 数据集构建 Embeddings 索引

发呆的比目鱼的博客

12-18

5149

使用 Hugging Face 数据集构建 Embeddings 索引本教程系列将涵盖txtai的主要用例，这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码，可也可以在colab 中使用。 colab 安装依赖 pip install txtai pip install datasets 在此示例中，我们将加载ag_news数据集，该数据集是新闻文章标题的集合。这只需要一行代码！接下来，txtai 将索引数据集的前 10,000 行。在 msmarco 上训练的模型用于计算句子嵌入。句子转

使用Hugging Face进行BGE模型的操作：深入指南

srysduguho的博客

12-15

944

BGE模型是由北京智源人工智能研究院开发的优秀开源嵌入模型，适用于多种NLP任务。它具备强大的性能和广泛的适用性，通过Hugging Face平台，我们可以便捷地访问和使用这些模型。通过本文，我们了解了如何使用Hugging Face平台来操作BGE模型。Hugging Face官方文档BAAI官方主页深入嵌入模型的概念指南。

部署并使用bge

最新发布

weixin_49103875的博客

04-01

810

Ubuntu下BGE-M3部署使用

深入浅出：使用Hugging Face Instruct Embeddings构建智能文本检索系统

ppoojjj的博客

08-28

1174

Instruct Embeddings是在传统嵌入模型基础上的一种改进。它通过在训练过程中加入特定的指令，使模型能够生成更加针对性的嵌入向量。更好的任务适应性：可以根据不同的任务生成相应的嵌入。提高语义理解：指令可以帮助模型更好地捕捉文本的语义信息。灵活性：可以通过调整指令来优化不同场景下的表现。Hugging Face Instruct Embeddings为文本嵌入任务提供了一个强大而灵活的工具。通过合理使用这一技术，我们可以构建出性能优异的文本检索、文本分类等NLP系统。

[解锁文本魔法：如何在Hugging Face上使用BGE Embeddings]

adfyvatbia的博客

11-16

449

BGE模型提供了强大的文本嵌入功能，是实现NLP任务的重要工具。

使用Hugging Face学习如何实现Instruct Embeddings

dfvcbipanjr的博客

10-02

499

Instruct Embeddings是一种嵌入技术，它能够根据给定的指令将文本转化为对应的向量表示。它适用于多种应用场景，如信息检索和问答系统。通过本文的介绍，希望你对如何使用Hugging Face的Instruct Embeddings有了更深入的了解。利用这些技术，可以显著提升文本处理的效果。Hugging Face Transformers官方文档sentence-transformers GitHub仓库。

第一次在公司调试BGE模型，谨以此篇记录学习过程

weixin_46101568的博客

08-30

2123

调试模型是一个复杂的过程，特别是看别人写好的代码，对应那种封装好的代码，站在公司的角度，是希望数据和模型都在本地。需要调整的地方很多。经过这么一个流程下来，也有很多的收获，学习了不少排错的方法，继续加油。

HuggingFace BERT源码详解：基本模型组件实现

Paper weekly

06-25

3661

怎么部署hugging face bge-reranker-v2-m3

01-09

### 部署 Hugging Face bge-reranker-v2-m3 模型为了成功部署 Hugging Face 的 `bge-reranker-v2-m3` 模型，可以遵循以下指南： #### 准备环境确保安装了 Python 和 pip 工具。接着，在命令行工具中执行如下操作来创建并激活虚拟环境（推荐做法），这有助于管理依赖项。 ```bash python -m venv my_env source my_env/bin/activate # Linux 或 macOS 用户 my_env\Scripts\activate # Windows 用户 ``` #### 安装必要的库通过 pip 来安装 Transformers 库和其他可能需要的包，比如 Torch 或 TensorFlow，具体取决于所选框架版本。 ```bash pip install transformers torch datasets ``` #### 加载模型利用 Hugging Face 提供的 API 接口加载指定名称的空间中的预训练模型实例。对于 `bge-reranker-v2-m3` 而言，首次调用将会自动从远程服务器下载对应的权重文件至本地缓存目录[^2]。 ```python from transformers import AutoModelForSequenceClassification, AutoTokenizer model_name = "BAAI/bge-reranker-v2-m3" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) ``` #### 使用模型进行预测定义一个简单的函数来进行输入处理和输出解析，以便能够方便地测试该重排序器的效果。 ```python def rerank(query, documents): inputs = tokenizer([query]*len(documents), documents, return_tensors="pt", padding=True, truncation=True) outputs = model(**inputs).logits.detach().numpy() scores = list(zip(outputs.flatten(), documents)) sorted_scores = sorted(scores, key=lambda x: x[0], reverse=True) for score, doc in sorted_scores[:5]: print(f"Score {score:.4f}: {doc}") # 测试例子 test_query = "example query text here." docs_to_rerank = ["document one content.", "another document's contents."] rerank(test_query, docs_to_rerank) ``` 上述代码片段展示了如何初始化模型以及编写基本的查询文档重排逻辑。实际应用时可根据需求调整参数设置或集成到更大规模的应用程序当中[^4]。