韩国句子嵌入项目教程

侯珠绮Renee

于 2024-09-13 07:55:56 发布

阅读量293

点赞数 3

本文链接：https://blog.csdn.net/gitblog_01155/article/details/142194278

版权

韩国句子嵌入项目教程

Sentence-Embedding-Is-All-You-Need Korean Sentence Embedding Repository 项目地址: https://gitcode.com/gh_mirrors/se/Sentence-Embedding-Is-All-You-Need

1. 项目介绍

项目概述

韩国句子嵌入项目（Korean Sentence Embedding Repository）是一个开源项目，旨在提供预训练的句子嵌入模型，这些模型可以直接下载并使用。该项目不仅提供了即用型的模型，还提供了一个适合个性化模型训练的环境。

主要功能

预训练模型：提供多种预训练的句子嵌入模型，如KoSimCSE、KoSBERT等。
个性化训练：支持用户根据自己的需求进行模型训练。
快速部署：模型可以直接下载并在Hugging Face平台上使用。

2. 项目快速启动

安装依赖

首先，确保你已经安装了Python和必要的依赖库。你可以使用以下命令安装所需的Python包：

pip install torch transformers

下载模型

你可以从Hugging Face Model Hub下载预训练模型。以下是一个示例代码，展示了如何下载并使用KoSimCSE-roberta模型：

import torch
from transformers import AutoModel, AutoTokenizer

# 定义计算相似度的函数
def cal_score(a, b):
    if len(a.shape) == 1:
        a = a.unsqueeze(0)
    if len(b.shape) == 1:
        b = b.unsqueeze(0)
    a_norm = a / a.norm(dim=1)[:, None]
    b_norm = b / b.norm(dim=1)[:, None]
    return torch.mm(a_norm, b_norm.transpose(0, 1)) * 100

# 加载模型和分词器
model = AutoModel.from_pretrained('BM-K/KoSimCSE-roberta')
tokenizer = AutoTokenizer.from_pretrained('BM-K/KoSimCSE-roberta')

# 示例句子
sentences = ['치타가 들판을 가로 질러 먹이를 쫓는다', '치타 한 마리가 먹이 뒤에서 달리고 있다', '원숭이 한 마리가 드럼을 연주한다']

# 分词并生成嵌入
inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
embeddings, _ = model(**inputs, return_dict=False)

# 计算相似度
score01 = cal_score(embeddings[0][0], embeddings[1][0])  # 84.09
score02 = cal_score(embeddings[0][0], embeddings[2][0])  # 23.21

print(f"相似度分数1: {score01}")
print(f"相似度分数2: {score02}")