使用OpenVINO加速AI推理：从入门到实战

最新推荐文章于 2024-10-04 22:36:54 发布

stjklkjhgffxw

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量208

点赞数 3

文章标签：人工智能 openvino python

本文链接：https://blog.csdn.net/stjklkjhgffxw/article/details/142382197

版权

# 使用OpenVINO加速AI推理：从入门到实战

## 引言
OpenVINO™ 是一个开源工具包，旨在优化和部署AI推理，支持多种硬件设备，如x86和ARM CPU，以及Intel GPU。它能够为计算机视觉、自动语音识别、自然语言处理等任务显著提升深度学习性能。本篇文章将探讨如何使用OpenVINO和Hugging Face嵌入模型来提高推理效率，并提供实用的代码示例。

## 主要内容

### OpenVINO简介
OpenVINO（Open Visual Inference and Neural Network Optimization）专注于加速深度学习模型的推理过程。通过利用Intel硬件的特性，OpenVINO可以在保持高精度的同时提升性能。

### 使用OpenVINO Embeddings
通过`OpenVINOEmbeddings`类，我们可以在OpenVINO上支持Hugging Face的嵌入模型。如果你有Intel GPU，你可以通过`model_kwargs={"device": "GPU"}`来指定在GPU上运行推理。

### 安装所需工具
首先，确保安装了optimum库，它能将Hugging Face模型与OpenVINO集成：

```bash
%pip install --upgrade-strategy eager "optimum[openvino,nncf]" --quiet

注意: 可能需要重启内核以使用更新的包。

嵌入模型的深入应用

我们将使用OpenVINOEmbeddings类来进行文本嵌入：

from langchain_community.embeddings import OpenVINOEmbeddings

model_name = "sentence-transformers/all-mpnet-base-v2"
model_kwargs = {"device": "CPU"}
encode_kwargs = {"mean_pooling": True, "normalize_embeddings": True}

ov_embeddings = OpenVINOEmbeddings(
    model_name_or_path=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs,
)

text = "This is a test document."
query_result = ov_embeddings.embed_query(text)
print(query_result[:3])  # 示例输出 [-0.0489, -0.0398, -0.0215]

代码示例

如何导出IR模型

你可以将嵌入模型导出为OpenVINO IR格式，并从本地加载：

from pathlib import Path

ov_model_dir = "all-mpnet-base-v2-ov"
if not Path(ov_model_dir).exists():
    ov_embeddings.save_model(ov_model_dir)

ov_embeddings = OpenVINOEmbeddings(
    model_name_or_path=ov_model_dir,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs,
)

BGE模型的使用

也可以通过OpenVINOBgeEmbeddings类访问BGE嵌入模型：

from langchain_community.embeddings import OpenVINOBgeEmbeddings

model_name = "BAAI/bge-small-en"
ov_embeddings = OpenVINOBgeEmbeddings(
    model_name_or_path=model_name,
    model_kwargs={"device": "CPU"},
    encode_kwargs={"normalize_embeddings": True},
)

embedding = ov_embeddings.embed_query("hi this is harrison")
print(len(embedding))  # 输出 384