Windows Anaconda使用Sentence-BERT获取句子向量

DavidSoCool

于 2025-04-08 20:32:37 发布

阅读量922

点赞数 12

分类专栏： elasticsearch 文章标签： bert 人工智能自然语言处理 elasticsearch

本文链接：https://blog.csdn.net/DavidSoCool/article/details/147051890

版权

elasticsearch 专栏收录该内容

40 篇文章

订阅专栏

1、安装Anaconda：

Anaconda是一个流行的Python数据科学平台，它包含了许多科学计算和数据分析的库，包括transformers和sentence_transformers。虽然不是必需的，但使用Anaconda可以简化环境管理和依赖安装的过程。

可以从Anaconda官网下载并安装Anaconda。

下载地址：Download Now | Anaconda

2、创建虚拟环境（推荐）：

为了避免不同项目之间的依赖冲突，建议为每个项目创建一个独立的虚拟环境。如果已经安装了Anaconda，可以使用以下命令创建虚拟环境：

conda create --name sentence_bert_env python=3.8

激活名称为 sentence_bert_env 的虚拟环境：

conda activate sentence_bert_env

3、安装必要的包：

在虚拟环境中，通过pip安装transformers和sentence_transformers库：

pip install transformers sentence_transformers

默认情况下，pip 会从 pypi 的官方服务器下载包，这可能会因为网络问题导致速度较慢。可以切换到国内的镜像源来加速下载。

pip install transformers sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

常用国内镜像源

阿里云：https://mirrors.aliyun.com/pypi/simple/
清华大学：https://pypi.tuna.tsinghua.edu.cn/simple
豆瓣：https://pypi.douban.com/simple/

有时 pip 缓存可能会导致安装失败或变慢。可以清理缓存后重新安装：

pip cache purge
pip install transformers sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

4、加载预训练模型：

从sentence_transformers库中选择合适的预训练模型。例如，可以使用以下python代码新建load_model.py加载一个名为all-MiniLM-L6-v2的预训练模型，

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')

网络不好会下载失败，这时候可以先下载好，在指定模型的路径（推荐）

官方下载地址：https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

官方打不开可以用这个地址：Index of /reimers/sentence-transformers/v0.2/

from sentence_transformers import SentenceTransformer
model_path = r"D:\models\all-MiniLM-L6-v2"
model = SentenceTransformer(model_path)

不同模型文件所需空间

模型名称	大小
`all-MiniLM-L6-v2`	~90MB
`paraphrase-MiniLM-L6-v2`	~90MB
`bert-base-uncased`	~440MB
`roberta-base`	~440MB
`distilbert-base-uncased`	~250MB

5、准备输入数据：

将要处理的句子整理成一个列表，作为模型的输入。例如：

sentences = ['This is a beautiful day.', 'I love spending time with my family.']

6、获取句子向量表示：

使用加载的模型对输入句子进行编码，得到每个句子的向量表示。这些向量能够捕捉句子的语义信息，可以用于后续的各种NLP任务。例如：

embeddings = model.encode(sentences)

for sentence, embedding in zip(sentences, embeddings):
    print(f"Sentence: {sentence}")
    print(f"Embedding: {embedding[:5]}... (维度: {len(embedding)})")

这将输出一个二维数组，其中包含了输入句子的向量表示。

完整的python代码：

# 从sentence transformers中SentenceTransformer 模块
from sentence_transformers import SentenceTransformer

# 替换为你的本地模型路径
model_path = r"D:\models\all-MiniLM-L6-v2"
# 加载模型
model = SentenceTransformer(model_path)

# 测试模型
sentences = ['This is a beautiful day.', 'I love spending time with my family.']
embeddings = model.encode(sentences)

# 输出模型向量
for sentence, embedding in zip(sentences, embeddings):
    print(f"Sentence: {sentence}")
    print(f"Embedding: {embedding[:5]}... (维度: {len(embedding)})")

执行代码：