M3E,开源中文 Embedding 模型使用笔记

一、说明

项目地址:

  • m3e-small
    https://huggingface.co/moka-ai/m3e-small
  • m3e-base
    https://huggingface.co/moka-ai/m3e-base

M3E 是 Moka Massive Mixed Embedding 的缩写

  • Moka,此模型由 MokaAI 训练,开源和评测,训练脚本使用 uniem ,评测 BenchMark 使用 MTEB-zh
  • Massive,此模型通过千万级 (2200w+) 的中文句对数据集进行训练
  • Mixed,此模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
  • Embedding,此模型是文本嵌入模型,可以将自然语言转换成稠密的向量

二、准备工作

1、安装sentence_transformers

pip install -U sentence-transformers

2、下载模型

链接: 异型岛社区版
链接: PP飞浆

三、使用

from sentence_transformers import SentenceTransformer
#model = SentenceTransformer('moka-ai/m3e-base')自动下载,可以采用离线的方式,'D:\\moka-ai\\m3e-base'为离线模型路径
model = SentenceTransformer('D:\\moka-ai\\m3e-base')
 
#Our sentences we like to encode
sentences = [
    '* Moka 此文本嵌入模型由 MokaAI 训练并开源,训练脚本使用 uniem',
    '* Massive 此文本嵌入模型通过**千万级**的中文句对数据集进行训练',
    '* Mixed 此文本嵌入模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索,ALL in one'
]
 
#Sentences are encoded by calling model.encode()
embeddings = model.encode(sentences)
 
#Print the embeddings
for sentence, embedding in zip(sentences, embeddings):
    print("Sentence:", sentence)
    print("Embedding:", embedding)
    print("")

参考链接:
https://blog.csdn.net/sinat_30045277/article/details/131208109

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值