使用 optimum 使得 embedding 生成速度提高 5 倍（和原生 sentence transformer 模型对比）

最新推荐文章于 2024-09-15 07:19:14 发布

阿姆姆姆姆姆姆姆

最新推荐文章于 2024-09-15 07:19:14 发布

阅读量1.3k

点赞数 16

分类专栏： RAG 文章标签： RAG 向量库模型推理加速 embedding模型加速

本文链接：https://blog.csdn.net/quoniammm/article/details/138045167

版权

今天偶然刷到了

Accelerate Sentence Transformers with Hugging Face Optimum (philschmid.de)

看到可以是用 optimum 调用 onnx API 加速 embedding 模型在 CPU 上的推理速度，而且相比之前：

使用 onnx 使得 embedding 生成速度提高 4 倍（和原生 sentence transformer 模型对比）-CSDN博客

调用方式更为简单，就研究了下如何在 GPU 上加速。

结果

[Optimum] OnnxModel Runtime gpu Inference time = 3.22 ms
Sentence Transformer gpu Inference time = 17.63 ms

可以看到使用 optimum 推理速度，还会更快些。

完整的代码可以查看：

github.com/amulil/vector_by_onnxmodel

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿姆姆姆姆姆姆姆

关注关注

16
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

LLM--如何使用SentenceTransformer将文本向量化

penriver的博客

03-31

1261

将文本向量化是自然语言处理（NLP）中的一项关键步骤，其主要目的是将原本难以直接被计算机理解的自然语言文本转换成数值形式的向量，以便于后续的机器学习算法和深度学习模型进行处理、分析和建模本文介绍如何使用SentenceTransformer将文本向量化

PEFT和LoRA：高效的参数高效微调方法

AI天才研究院

10-14

1194

本文将详细介绍PEFT和LoRA两种参数高效的微调方法，探讨其在深度学习领域的应用。通过对这两种方法的核心概念、数学模型、算法原理、应用实践以及优化方法进行全面剖析，本文旨在为读者提供对PEFT和LoRA的深入理解，并展示它们在实际项目中的价值。

参与评论您还未登录，请先登录后发表或查看评论

SentenceTransformer使用多GPU加速向量化

qq_44193969的博客

10-11

3955

当我们需要对大规模的数据向量化以存到向量数据库中时，且服务器上有多个GPU可以支配，我们希望同时利用所有的GPU来并行这一过程，加速向量化。

快速提升Sentence-Transformer推理速度：ONNX模型转换实战

gitblog_00407的博客

09-15

1090

快速提升Sentence-Transformer推理速度：ONNX模型转换实战项目地址:https://gitcode.com/gh_mirrors/qu/quick_sentence_transformers 项目介绍在自然语言处理（NLP）领域，Sentence-Transformer（以下简称SBERT）模型因其高效的句子嵌入能力而被广泛应用于问答系统、语义搜索等场景。然而，SBERT在...

深度学习系列51：hugging face加速库optimum

kittyzc的博客

10-13

1411

Optimum是huggingface transformers库的一个扩展包，用来提升模型在指定硬件上的训练和推理性能。Optimum支持多种硬件，不同硬件下的安卓方式如下：如果是国内安装的话，记得加上-i https://pypi.tuna.tsinghua.edu.cn/simple。hugging face目前是被墙的状态，在使用示例代码时，需要将模型离线下载下来使用。

大模型的 Embedding 模型该如何进行微调？

2201_75499313的博客

06-07

3867

本文重点介绍了如何使用 Sentence Transformers 对开源的Embedding模型进行微调，并验证Embedding模型微调后的效果。Sentence Transformers 是一个宝库，它介绍了关于Embedding模型方方面面的内容，是了解、深入Embedding模型必不可少的工具。后续笔者将会介绍Embedding模型量化、俄罗斯套娃嵌入模型（Matryoshka Representation Learning, MRL）等相关方面的内容。

ONNX小白入门(1)：sentence-transformer 提取embedding模型转onnx

mantoureganmian的专栏

07-21

3834

onnx转换的时候，tokenizer部分是无法被onnx的，只有你backone模型才能进行转onnx，不要问我为啥，因为我也不知道。很多时候，我也不知道这段代码啥意思，但是作为应用人员，不要在意这段代码到底干了啥，除非必要。这里不仅展示了如何转onnx，还有你部署时候，所需要的所有的文件，都打包到一个文件夹中了。本文适合小白入门，以自己训练的句子embedding模型为例，像大家展示了如何手动将。误差数值很小，结果OK。的模型转为onnx。

使用 HuggingFace 库进行本地嵌入向量生成

qq_29929123的博客

06-19

5343

在当今的AI和机器学习应用中，嵌入向量（embeddings）已成为不可或缺的一部分。嵌入向量能够将文本等高维数据转换为低维稠密向量，从而便于计算和分析。在本文中，我们将介绍如何使用 HuggingFace 库在本地生成嵌入向量，并演示相关代码。

python系列&deep_study系列：# ImportError: /usr/local/lib/python3.10/dist-packages/vllm/_C.cpython-310-x86

weixin_54626591的博客

08-12

677

ImportError: /usr/local/lib/python3.10/dist-packages/vllm/_C.cpython-310-x86_64-linux-gnu.so: undefined symbol: _ZN2at4_ops15to_dtype_layout4callERKNS_6TensorEN3c108optionalINS5_10ScalarTypeEEENS6_INS5_6LayoutEEENS6_INS5_6DeviceEEENS6_IbEEbbNS6_INS5_12Mem

对比学习simcse代码实战 sentence_transformers使用笔记

04-19

5402

首先是下载sentence_transformers pip install sentence_transformers -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn 使用sentence_transformers 它自动可以调用gpu 没有gpu就是用cpu跑无监督loss losses.MultipleNegativesRankingLoss 数...

SentenceTransformers库介绍

CSDN 精品推荐

03-07

3701

对于NLP有个常见的任务就是计算不同文本之间的相似度，对于文本来讲我们是用Embedding向量来进行表示，因为这个嵌入向量就已经蕴含了该文本的语义信息，所以我们可以根据这个向量来计算文本之间的相似度。这个框架计算超过100种语言的句子或文本嵌入。然后，这些嵌入可以进行比较，例如与余弦相似度进行比较，以找到具有相似含义的句子，这对于语义文本相似、语义搜索或释义挖掘非常有用。该框架基于PyTorch和Transformer，并提供了大量预训练的模型集合，用于各种任务，此外，很容易微调您自己的模型。

最简单的生成词向量加速

qq_44793031的博客

08-31

216

最简单的优化方式，之后也测试当数量继续增大为80条、120条…会不会不只是两倍关系的速度提升，发现依旧如此，是不是这就是该思路的极限水平了？接下来该换思路了？

使用 HuggingFace 和 LlamaIndex 实现本地嵌入模型

ppoojjj的博客

08-04

1640

在当今的自然语言处理（NLP）任务中，嵌入模型（Embedding Models）扮演着至关重要的角色。它们能够将文本转化为高维向量，从而方便后续的机器学习任务。本文将介绍如何使用 HuggingFace 和 LlamaIndex 实现本地嵌入模型，并通过实例代码演示具体操作。我们将使用中专API地址（http://api.wlai.vip）来调用大模型。

神经网络算法 - 一文搞懂Embedding（嵌入）

weixin_53880910的博客

08-03

4310

本文将从**Embedding的本质、Embedding的原理、Embedding的应用**三个方面，带您一文搞懂Embedding（嵌入）。

【LocalAI】（9）：本地使用CPU运行LocalAI，一次运行4个大模型，embedding模型，qwen-1.5-05b模型，生成图模型，语音转文字模型

freewebsys的专栏

05-01

1714

【LocalAI】（9）：本地使用CPU运行LocalAI，一次运行4个大模型，embedding模型，qwen-1.5-05b模型，生成图模型，语音转文字模型。它允许您在本地使用消费级硬件运行 LLM（不仅如此），支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。LocalAI 是一个用于本地推理的，与 OpenAI API 规范兼容的 REST API。替换了镜像里面的aio 文件夹。把模型都使用国内镜像进行下载地址替换了。使用了modescope 下载地址。

推荐算法之Embedding方法汇总

qq_38375203的博客

07-25

4469

浅谈BERT/Transformer模型的压缩与优化加速

Paper weekly

12-31

4325

如何缩小Embedding尺寸并提高RAG检索速度

zhishi0000的博客

06-23

917

从输入字符串到句子Enbedding，图片由作者提供我们首先定义一个词汇表，将所有可能的输入字符映射到整数值。该词汇表不仅包括字母表中的字符，还包括特殊字符、短词和子词：在进行分词处理后，我们可以将分词后的列表输入到我们的编码器模型中。该编码器通过大量训练数据的学习，能够将每个分词转换为高维数值向量Enbedding。例如，OpenAI的text-embedding-3-large模型的Enbedding输出维度d为3072。

Py之sentence-transformers：sentence-transformers的简介、安装、使用方法之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

10-31

7389

Py之sentence-transformers：sentence-transformers的简介、安装、使用方法之详细攻略目录 sentence-transformers的简介 sentence-transformers的安装 sentence-transformers的使用方法 sentence-transformers的简介 Sentence Transformers，它使用BERT等模型进行多语句、段落和图像嵌入。该框架提供了一种简单的方法来计算句子、段落和图像的稠密向量表

使用optimum.onnxruntime 导出模型