Contriever 项目使用教程

最新推荐文章于 2024-12-11 09:53:00 发布

舒京涌

最新推荐文章于 2024-12-11 09:53:00 发布

阅读量929

点赞数 17

本文链接：https://blog.csdn.net/gitblog_00789/article/details/142803003

版权

Contriever 项目使用教程

contriever Contriever: Unsupervised Dense Information Retrieval with Contrastive Learning 项目地址: https://gitcode.com/gh_mirrors/co/contriever

1. 项目介绍

Contriever 是一个由 Facebook Research 开发的无监督密集信息检索项目，基于对比学习框架进行预训练。该项目的主要目标是提供一种无需监督数据即可进行信息检索的模型，其性能与传统的 BM25 方法相当，甚至在某些情况下表现更优。Contriever 不仅支持单语言检索，还支持多语言和跨语言检索，适用于多种自然语言处理任务。

2. 项目快速启动

2.1 安装依赖

首先，确保你已经安装了 Python 和必要的依赖库。你可以使用以下命令安装所需的 Python 包：

pip install transformers

2.2 加载预训练模型

Contriever 提供了多种预训练模型，你可以通过 HuggingFace 的 transformers 库加载这些模型。以下是一个简单的示例代码，展示如何加载 Contriever 模型并生成句子嵌入：

from src.contriever import Contriever
from transformers import AutoTokenizer

# 加载 Contriever 模型
contriever = Contriever.from_pretrained("facebook/contriever")

# 加载对应的 tokenizer
tokenizer = AutoTokenizer.from_pretrained("facebook/contriever")

# 示例句子
sentences = [
    "Where was Marie Curie born?",
    "Maria Sklodowska, later known as Marie Curie, was born on November 7, 1867.",
    "Born in Paris on 15 May 1859, Pierre Curie was the son of Eugène Curie, a doctor of French Catholic origin from Alsace."
]

# 对句子进行编码
inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")

# 生成嵌入
embeddings = contriever(**inputs)

# 计算句子之间的相似度
score01 = embeddings[0] @ embeddings[1]  # 1.0473
score02 = embeddings[0] @ embeddings[2]  # 1.0095

print(f"Sentence 1 vs Sentence 2: {score01}")
print(f"Sentence 1 vs Sentence 3: {score02}")