开源项目 uniem 使用教程

开源项目 uniem 使用教程

uniemunified embedding model项目地址:https://gitcode.com/gh_mirrors/un/uniem

项目介绍

uniem 项目的目标是创建中文最好的通用文本嵌入模型。本项目主要包括模型的训练、微调和评测代码,模型与数据集会在 HuggingFace 社区上进行开源。uniem 是 UNIfied Embedding Model 的缩写,旨在为中文 Embedding 模型提供统一的评测标准,参考了 MTEB 构建了中文评测标准 MTEB-zh。

项目快速启动

环境准备

首先,确保你已经安装了 Python 3.10 或更高版本。然后,创建一个虚拟环境并激活它:

conda create -n uniem python=3.10
conda activate uniem

克隆并安装项目

克隆项目到本地并安装:

git clone https://github.com/wangyuxinwhy/uniem.git
cd uniem
pip install -e .

加载模型

使用 sentence-transformers 加载 uniem 模型:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("moka-ai/m3e-base")
embeddings = model.encode(['Hello World', '你好 世界'])
print(embeddings)

应用案例和最佳实践

文本分类

使用 uniem 模型进行文本分类:

from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 加载数据集
newsgroups = fetch_20newsgroups(subset='all')
X_train, X_test, y_train, y_test = train_test_split(newsgroups.data, newsgroups.target, test_size=0.2, random_state=42)

# 获取嵌入
X_train_embeddings = model.encode(X_train)
X_test_embeddings = model.encode(X_test)

# 训练分类模型
classifier = LogisticRegression(max_iter=500)
classifier.fit(X_train_embeddings, y_train)

# 预测
y_pred = classifier.predict(X_test_embeddings)
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")

文本检索

使用 uniem 模型进行文本检索:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 示例数据
documents = ["你好 世界", "这是一个测试文档", "欢迎使用 uniem 模型"]
queries = ["你好"]

# 获取嵌入
document_embeddings = model.encode(documents)
query_embeddings = model.encode(queries)

# 计算相似度
similarities = cosine_similarity(query_embeddings, document_embeddings)
print(similarities)

典型生态项目

sentence-transformers

uniem 模型完全兼容 sentence-transformers,可以在所有支持 sentence-transformers 的项目中无缝使用。

chroma

chroma 是一个基于 uniem 模型的文本检索系统,可以快速实现高效的文本检索功能。

semantic-kernel

semantic-kernel 是一个基于 uniem 模型的语义分析工具,可以帮助开发者进行更深层次的文本分析和处理。

通过以上教程,您可以快速上手并应用 uniem 模型进行各种文本处理任务。希望 uniem 能为您的工作带来便利和效率提升。

uniemunified embedding model项目地址:https://gitcode.com/gh_mirrors/un/uniem

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
项目:使用AngularJs编写的简单 益智游戏(附源代码)  这是一个简单的 javascript 项目。这是一个拼图游戏,也包含一个填字游戏。这个游戏玩起来很棒。有两个不同的版本可以玩这个游戏。你也可以玩填字游戏。 关于游戏 这款游戏的玩法很简单。如上所述,它包含拼图和填字游戏。您可以通过移动图像来玩滑动拼图。您还可以选择要在滑动面板中拥有的列数和网格数。 另一个是填字游戏。在这里你只需要找到浏览器左侧提到的那些单词。 要运行此游戏,您需要在系统上安装浏览器。下载并在代码编辑器中打开此项目。然后有一个 index.html 文件可供您修改。在命令提示符中运行该文件,或者您可以直接运行索引文件。使用 Google Chrome 或 FireFox 可获得更好的用户体验。此外,这是一款多人游戏,双方玩家都是人类。 这个游戏包含很多 JavaScript 验证。这个游戏很有趣,如果你能用一点 CSS 修改它,那就更好了。 总的来说,这个项目使用了很多 javascript 和 javascript 库。如果你可以添加一些具有不同颜色选项的级别,那么你一定可以利用其库来提高你的 javascript 技能。 演示: 该项目为国外大神项目,可以作为毕业设计的项目,也可以作为大作业项目,不用担心代码重复,设计重复等,如果需要对项目进行修改,需要具备一定基础知识。 注意:如果装有360等杀毒软件,可能会出现误报的情况,源码本身并无病毒,使用源码时可以关闭360,或者添加信任。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

仰北帅Bobbie

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值