M3E模型onnx格式导出和使用手把手教程

一车面包人

于 2024-09-16 16:37:14 发布

阅读量822

点赞数 15

文章标签：人工智能 nlp 自然语言处理

本文链接：https://blog.csdn.net/qq_20368489/article/details/142303519

版权

一、模型介绍

M3E Models ：是Moka（北京希瑞亚斯科技）开源的很强大的文本嵌入模型。

模型地址：

https://huggingface.co/moka-ai/m3e-base

M3E Models 是使用千万级 (2200w+) 的中文句对数据集进行训练的 Embedding 模型，在文本分类和文本检索的任务上都超越了 openai-ada-002 模型（ChatGPT 官方的模型）。

M3E的数据集，模型，训练脚本，评测框架都开源。

M3E 是 Moka Massive Mixed Embedding 的缩写

Moka，此模型由 MokaAI 训练，开源和评测，训练脚本使用 uniem ，评测 BenchMark 使用 MTEB-zh

Massive，此模型通过千万级 (2200w+) 的中文句对数据集进行训练

Mixed，此模型支持中英双语的同质文本相似度计算，异质文本检索等功能，未来还会支持代码检索

Embedding，此模型是文本嵌入模型，可以将自然语言转换成稠密的向量

二、导出onnx格式的好处

根据上面链接下载m3e-base可以看到，这个模型占用了1个多G的空间，而且官方介绍的模型使用方式需要安装sentence_transformes库，这个库也比较笨重，因此使用官方介绍的使用m3e模型的方式不适用于轻量级应用。

from sentence_transformers import SentenceTransformer

def m3e_model(text)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一车面包人

关注关注

15
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

FastGPT部署接入 M3E和chatglm2-m3e文本向量模型

洛阳泰山的博客

04-24

1818

FastGPT 默认使用了 openai 的 embedding 向量模型，如果你想私有部署的话，可以使用 M3E 向量模型进行替换。M3E 向量模型属于小模型，资源使用不高，CPU 也可以运行。下面教程是基于 “睡大觉” 同学提供的一个的镜像。

53、正确导出onnx模型，以及替换对应的算子支持

sxj731533730

12-12

2132

基本思想：学习tensorRT教程，来自bilibi ,参考附录一,和在实际算法使用中遇到的总结模型结果修改一结果代码结果使用大老师的onnxsim也可以直接简化结果二、yolov5-5.0的转模型修改源码三、修改第三条源码需要将reshape的第一个维度改成-1，继续改四、插播ncnn的转模型，就只剩下slice报错了，去掉了gather和shape节点五、channel_shuffle通道洗牌模型显示sim一下，存在五维度需要修改成低于五维度数据格式修改代码模型可以转ncnn,还没测试。

参与评论您还未登录，请先登录后发表或查看评论

最强中文Embedding模型m3e和向量数据库Qdrant联动

happy game

02-28

3531

M3E 是的缩写Moka，此模型由 MokaAI 训练，开源和评测，训练脚本使用uniem，评测 BenchMark 使用MTEB-zhMassive，此模型通过千万级(2200w+) 的中文句对数据集进行训练Mixed，此模型支持中英双语的同质文本相似度计算，异质文本检索等功能，未来还会支持代码检索Embedding，此模型是文本嵌入模型，可以将自然语言转换成稠密的向量在大模型中使用向量数据库具有多方面的意义，特别是在处理大规模向量数据时。大模型通常需要处理大量的向量数据，如图像、文本、语音等。

M3E - Embedding 模型

AI + 工程

05-01

2662

一、关于 M3E 1、什么是 M3E 2、关于 MokaAI 公司 3、训练方案➿ 4、特性🌟 5、模型对比⚖️ 二、使用 M3E 🔧 三、微调模型🎨

三大知名向量化模型比较分析——m3e,bge,bce

07-16

3604

BGE：在多语言支持、文本处理能力和检索精度方面表现优异，尤其适合需要高精度和高效率的场景。同时，其资源使用较为经济。M3E：专注于中文文本处理，具有强大的文本处理能力和灵活的部署选项，适合资源受限或需要私有化的应用场景。BCE：虽然具体细节较少，但其在RAG应用中的表现表明其具备一定的优势，可能适合特定的高精度需求场景。根据不同的应用需求和资源条件选择合适的模型会更加有效。

部署大模型API的实战教程

热门推荐

herosunly的博客

01-17

6万+

今天给大家带来的文章是部署大模型API的实战教程，希望能对学习大模型的同学们有所帮助。文章目录 1. 前言 2. 配置环境 2.1 安装虚拟环境 2.2 安装依赖库 3. 运行代码 3.1 修改文件 3.2 运行API 3.3 测试API

一文通透Text Embedding模型：从text2vec、openai-text embedding到m3e、bge

结构之法算法之道

12-31

2万+

判断哪些文本嵌入模型效果较好，通常需要一个评估指标来进行比较，《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》就是一个海量文本嵌入模型的评估基准论文地址：https://arxiv.org/abs/2210.07316MTEB包含8个语义向量任务，涵盖58个数据集和112种语言。通过在MTEB上对33个模型进行基准测试，我们建立了迄今为止最全面的文本嵌入基准。我们发现没有特定的文本嵌入方法在所有任务中都占主导地位。

M3E，开源中文 Embedding 模型使用笔记

清水至清

10-25

4881

【代码】M3E，开源中文 Embedding 模型使用笔记。

开源文本嵌入模型M3E

wbsu2004的博客

04-24

7398

M3E 是一个开源的文本嵌入模型，适合使用场景主要是中文，少量英文的情况。

m3e-base.tgz

11-01

标题 "m3e-base.tgz" 提供的信息较少，它很可能是一个包含软件库、模型或者数据集的压缩文件，格式为 tar.gz。这种格式在IT行业中常见于源代码分布、机器学习模型或大数据集的存储，因为它能有效地压缩大量文件。"m3...

m3_export_3dsmax m3模型导出

02-05

M3 Import Script，3ds Max 的M3模型导出

SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World

weixin_45834800的博客

09-13

979

基于区域的方法在基于模型的单目3D跟踪无纹理物体的复杂场景中变得越来越流行。然而，尽管它们能够实现最先进的结果，大多数方法的计算开销很大，需要大量资源来实时运行。在下文中，我们基于之前的工作，开发了SRT3D，这是一种稀疏的基于区域的3D物体跟踪方法，旨在弥合效率上的差距。我们的方法在所谓的对应线（这些线模型化了物体轮廓位置的概率）上稀疏地考虑图像信息。由此，我们改进了当前的技术，并引入了考虑定义的全局和局部不确定性的平滑阶跃函数。对于所得到的概率公式，提供了详尽的分析。

【AI大模型】Kimi API大模型接口实现

qq_25888559的博客

09-15

810

Kimi智能助手在效率（免费榜）排名从2024年1月14日的第436名提升至3月19日的第11名。而尚未上线的GPT-4.5 Turbo上下文窗口指定为25.6万个token，能同时处理约20万个单词，Kimi升级后，长文本能力为其10倍。在2023年10月初次亮相时，该模型的处理能力还仅有约20万汉字。2024年3月18日，月之暗面宣布Kimi智能助手启动200万字无损上下文内测。

生成式人工智能在新加坡的发展现状和地位

wukangjupingbb的博客

09-11

1103

依据国际隐私专业人员协会(IAPP)的相关报告，2020年，上述两机构更新了该模型框架，发布了第二版，并推出了《组织实施和自我评估指南》，帮助组织评估其人工智能治理实践与型框架的匹配程度，还发布了《案例汇编》，展示了组织如何实施负责任的人工智能治理实践。2019年，金融管理局宣布与金融行业合作创建Veritas框架，为金融机构提供可验证的方法，将FEAT原则纳入其人工智能和数据分析驱动的解决方案中。新加坡在人工智能治理方面采取了部门性的方法，即通过各个行业的监管机构来管理人工智能的使用。

opencv学习：calcHist 函数绘制图像直方图及代码实现

mohanyelong的博客

09-13

1456

opencv学习：calcHist 函数绘制图像直方图及代码实现

Djourney新手入门基础，AI摄影+AI设计+AI绘画-AIGC作图

DAMOXINGHAITAI的博客

09-14

949

（全套教程文末领取哈）从大模型系统设计入手，讲解大模型的主要方法；在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；以SD多模态大模型为主，搭建了文生图小程序案例；以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

基于机器学习的乳腺癌肿瘤智能分析预测系统

最新发布

Python极客之家

09-16

787

本系统致力于通过分析肿瘤的各种特征，如半径、纹理、形状等，利用Matplotlib、Seaborn 等工具进行可视化统计分析，并建立机器学习模型来预测肿瘤是否为恶性，测试集预测 AUC 达到 98.441%。系统的设计目的是为了帮助医疗专业人员更快地做出决策，并为患者提供更及时的治疗方案。

从AI到大数据，数字技术服务平台全栈赋能企业升级

smjt2024的博客

09-11

646

海量的数据中蕴含着丰富的信息和价值，数字技术服务平台能够收集、整理和分析这些数据，为企业提供精准的市场洞察和决策支持。企业可以通过参加树莓集团举办的培训课程和研讨会，了解最新的数字技术趋势和应用案例，提升自身的数字技术水平。从技术咨询、解决方案设计到系统实施和运维，数字技术服务平台为企业提供一站式的服务，让企业无需担心技术难题，专注于自身的核心业务。树莓集团的数字技术服务平台，以其先进的技术、专业的服务和丰富的经验，为企业提供了全栈赋能。在数字时代，让我们共同利用数字技术服务平台，开启企业升级的新篇章。

使用M3E-Base模型生成以pkl格式和paiss格式的向量化数据库储存

07-17

您可以按照以下步骤使用M3E-Base模型生成pkl和paiss格式的向量化数据库： 1. 准备数据：将您的原始数据整理为一个列表，每个元素代表一个文本样本。 2. 安装所需的库：确保您已经安装了以下库：transformers、torch和numpy。您可以使用pip命令进行安装。 3. 加载模型：使用transformers库加载M3E-Base模型。您可以使用以下代码片段： ```python from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("cszn/M3E-Base") model = AutoModel.from_pretrained("cszn/M3E-Base") ``` 4. 文本向量化：使用tokenizer对您的文本进行标记化和编码，然后使用model获取每个文本的嵌入向量。以下是一个示例代码： ```python import torch import numpy as np def text_to_vector(text): inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt") with torch.no_grad(): outputs = model(**inputs) embeddings = outputs.last_hidden_state[:, 0, :].numpy() return embeddings data = ["文本样本1", "文本样本2", ...] # 替换为您自己的数据 vectors = [text_to_vector(text) for text in data] vectors = np.vstack(vectors) ``` 5. 保存向量化数据库：使用pickle库将向量化数据保存为pkl文件，或使用faiss库将其保存为faiss格式文件。保存为pkl文件的示例代码： ```python import pickle output_path = "vectors.pkl" # 替换为您希望保存的文件路径 with open(output_path, "wb") as f: pickle.dump(vectors, f) ``` 保存为faiss格式文件的示例代码： ```python import faiss output_path = "vectors.faiss" # 替换为您希望保存的文件路径 faiss.write_index(faiss.IndexFlatL2(vectors.shape[1]), output_path) ``` 这样，您就可以使用M3E-Base模型生成以pkl和faiss格式存储的向量化数据库了。请根据您的需求选择适当的格式进行保存。