一、模型介绍
M3E Models :是Moka(北京希瑞亚斯科技)开源的很强大的文本嵌入模型。
模型地址:
https://huggingface.co/moka-ai/m3e-base
M3E Models 是使用千万级 (2200w+) 的中文句对数据集进行训练的 Embedding 模型,在文本分类和文本检索的任务上都超越了 openai-ada-002 模型(ChatGPT 官方的模型)。
M3E的数据集,模型,训练脚本,评测框架都开源。
M3E 是 Moka Massive Mixed Embedding 的缩写
Moka,此模型由 MokaAI 训练,开源和评测,训练脚本使用 uniem ,评测 BenchMark 使用 MTEB-zh
Massive,此模型通过千万级 (2200w+) 的中文句对数据集进行训练
Mixed,此模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
Embedding,此模型是文本嵌入模型,可以将自然语言转换成稠密的向量
二、导出onnx格式的好处
根据上面链接下载m3e-base可以看到,这个模型占用了1个多G的空间,而且官方介绍的模型使用方式需要安装sentence_transformes库,这个库也比较笨重,因此使用官方介绍的使用m3e模型的方式不适用于轻量级应用。
from sentence_transformers import SentenceTransformer
def m3e_model(text)