普通网友-CSDN博客

原创利用 Upstash Redis 实现聊天消息历史存储

Upstash 是一个提供无服务器 Redis、Kafka 和 QStash API 的服务商。其中，Upstash Redis 是一个具备低延迟和高吞吐量的缓存与数据库解决方案，非常适合存储实时数据。例如，在聊天应用中存储和检索聊天记录。

2025-01-24 05:55:44 223

原创使用 Elasticsearch 作为 Embeddings 缓存的实现指南

是一个基于 Elasticsearch 的字节存储实现，专为高效的嵌入向量存储和检索而设计。在构建使用自然语言处理和机器学习模型的应用时，这样的缓存方案可以显著提高数据的读取和处理速度。

2025-01-24 03:23:11 355

原创使用LangChain与LLM进行本地文件系统交互

是一个强大的文件管理工具包，可以轻松集成到你的LLM代理中。为了防止污染工作目录，我们建议始终传递一个根目录。调用。

2025-01-24 00:44:27 276

原创在Python中使用腾讯云对象存储（COS）加载文件

腾讯云对象存储（COS）是一种分布式的高可用存储服务，支持任何格式和结构的数据存储。COS不限制桶的大小，同时提供了多种访问接口，包括Web控制台、多语言SDK、API、命令行工具以及图形工具。COS的兼容性使其能够与Amazon S3 API一起使用，快速接入社区工具和插件。

2025-01-23 19:09:32 517

腾讯云对象存储（Tencent COS）是一个分布式存储服务，旨在通过HTTP/HTTPS协议支持从任何地方存储任意数量的数据。COS无需担心数据结构或格式限制，也没有存储空间或分区管理限制，这使得它非常适合数据分发、数据处理和数据湖等各种用例。这个服务提供了基于Web的控制台、多语言SDK和API、命令行工具，以及图形工具，并且与Amazon S3 API兼容，方便用户访问各种社区工具和插件。本文将介绍如何从Tencent COS目录中加载文档对象。

2025-01-23 19:04:01 361

原创使用Rockset和LangChain进行实时文档加载

Rockset被设计为一种实时分析引擎，支持高并发应用程序数据查询，其特点是数据摄取后即可查询，通常分析查询在毫秒级完成。LangChain则是一个灵活的库，为构建以语言模型为核心的应用提供了丰富功能。

2025-01-23 17:55:07 139

原创使用ImageCaptionLoader构建可查询的图像描述索引

我们将使用Langchain库中的ImageCaptionLoader，它使用了预训练的Salesforce BLIP模型来生成图像的文本描述。此工具能够将图像转换为可索引的文档格式，然后通过进一步的处理，实现在大量图像中高效地进行内容检索。

2025-01-23 15:05:23 377

原创使用LangChain从Hacker News中提取数据的实战指南

Hacker News提供了丰富的讨论和高质量的内容，API接口可以帮助开发者自动化地抓取新闻和评论数据。LangChain中的HNLoader是一个用于加载Hacker News数据的文档加载器，方便我们从特定的文章页面获取内容。

2025-01-23 14:31:21 432

原创使用Fireworks Embeddings在Langchain中嵌入文本

在自然语言处理（NLP）领域，文本嵌入是将文本转换为计算机可理解的形式的核心技术。Fireworks Embeddings是由包支持的嵌入工具，它能够将文本嵌入到向量空间中。这使得我们能够以相似语义进行文本比较、搜索等操作。在本次示例中，我们将使用默认的模型来展示Fireworks Embeddings的基本用法。

2025-01-23 10:22:04 252

原创使用Cohere Embeddings进行文本嵌入的实现与应用

Cohere提供的文本嵌入模型旨在将文本数据转换为固定长度的向量。这些嵌入可以用于多种NLP任务，如相似度计算、聚类分析及文本分类等。Cohere的模型是一个轻量级的嵌入模型，适用于对性能有较高要求的场景。

2025-01-23 09:42:29 362

原创在OCI数据科学平台上部署和调用大语言模型

OCI Data Science是一种强大的工具，它让数据科学家可以在Oracle云基础设施上进行机器学习模型的开发、训练和管理。通过无服务器的架构，用户无需担心底层基础设施的管理问题，可以专注于模型的开发与优化。

2025-01-23 06:42:32 288

原创如何使用Layerup Security保护您的LangChain LLM调用

Layerup Security集成允许您为任何LangChain LLM、LLM链或者LLM代理的调用增加安全性。它通过一个安全层将用户与LLM隔离开来，保护敏感信息不被泄露。虽然Layerup Security对象设计为LLM，但是它本身并不是LLM，而是对现有LLM的封装，使其能够提供额外的安全功能。

2025-01-23 05:51:40 387

原创使用JSONFormer进行结构化JSON解码的实践

通常，我们使用生成式模型来完成各种自然语言处理任务。然而，生成输出的无序性和格式不对齐是常见的问题，尤其是当我们需要模型输出符合特定结构时。JSONFormer通过填充结构化的token并从模型中采样内容token，有效解决了这一难题。

2025-01-23 05:34:40 286

原创使用IBM watsonx.ai和LangChain进行自然语言处理

IBM watsonx.ai是IBM推出的一个基于AI技术的自然语言处理平台，它允许用户通过简单的API调用来利用IBM强大的模型进行语言生成、分类等任务。LangChain是一个用于构建可组合自然语言处理工作流的框架，支持与watsonx.ai的无缝集成。

2025-01-23 05:23:08 179

原创使用LangChain与Fireworks模型进行交互

Fireworks是一个强大的生成式AI平台，致力于通过创新的AI实验和生产平台加速产品开发。它提供了多种模型供用户使用，其中包括文本补全模型和聊天完成模型。本文将介绍如何使用LangChain库与Fireworks模型进行交互。

2025-01-23 04:38:14 182

原创使用Yuan2.0 API和LangChain实现高级对话应用

Yuan2.0由IEIT System开发，分为Yuan 2.0-102B、Yuan 2.0-51B和Yuan 2.0-2B三种型号。这些模型经过高质量的数据预训练，以及指令微调数据集的优化，显著提升了模型的理解和生成能力。

2025-01-23 02:56:23 794

原创使用Upstage聊天模型的快速入门指南

Upstage提供了基于先进自然语言处理技术的聊天模型。这些模型可以为各种应用提供智能的对话能力，例如客服机器人、语言翻译等。通过库，开发者能够方便地调用Upstage的服务，实现强大的对话功能。

2025-01-23 02:38:35 198

原创使用AI21模型构建智能对话应用

AI21是一款强大的AI语言模型，支持多种对话模型参数。不同的模型适用于不同的任务场景，如文本生成、翻译等。我们通过调用AI21的API，可以快速集成这些功能，构建自定义的对话应用。

2025-01-23 00:08:01 233

原创使用Graphsignal追踪和监控LangChain应用

在现代AI应用中，实时监控和追踪是确保系统稳定性和性能优化的关键一步。LangChain作为一个应用广泛的链式调用框架，其复杂性常常带来挑战。Graphsignal是一个帮助开发者深入了解应用性能的工具，它可以提供从链、工具的延迟分解，到异常的完整上下文，再到数据监控、计算/GPU使用情况，以及OpenAI成本分析等全面的可见性。

2025-01-22 11:20:10 506

原创如何使用GitHub API进行文档加载与管理

GitHub不仅是一个代码仓库管理平台，也提供了丰富的API接口，支持我们从外部程序中访问和操作其存储的项目数据。与Git协同使用，GitHub可以处理分布式版本控制，并且通过API，我们可以自动化许多操作，比如加载项目中的Issue和文件。

2025-01-22 10:44:12 351

原创深入Figma API：协同界面设计的利器

Figma不仅支持多人在线协作设计，还提供了一套完整的API接口，让开发者可以通过代码访问设计资源。这对于开发跨应用自动化工作流、生成报告或整合其他开发工具尤为重要。

2025-01-22 10:09:43 415

原创使用 Dedoc 进行文档解析的实战指南

在现代办公环境中，处理不同格式的文档是日常工作的核心。Dedoc 是一个开源库和服务，专为从各种文件格式中提取文本、表格、附件和文档结构（如标题、列表项等）而设计。Dedoc 支持多种文件格式，包括 DOCX、XLSX、PPTX、EML、HTML、PDF、图片等，这使得它成为处理文件内容的强大工具。

2025-01-22 08:18:52 441

原创如何在项目中使用百度云的Qianfan服务进行AI开发

百度云是百度公司提供的一项云服务，提供云存储、客户端软件、文件管理、资源共享及第三方集成等多种服务。在AI领域，百度云推出了Qianfan，涵盖语言模型、聊天模型、嵌入模型以及向量存储等功能，帮助开发者便捷地构建AI应用。

2025-01-22 04:56:29 683

原创 Apache Doris实时分析数据仓库的快速入门

Apache Doris 旨在解决传统数据仓库在实时分析中的性能瓶颈问题。传统的数据仓库通常在数据量庞大时，分析速度会变得缓慢，而 Doris 能够高效地处理这些数据并提供实时分析能力。

2025-01-22 03:44:59 346

原创 Activeloop Deep Lake 的应用与实现

随着机器学习的普及和数据量的爆炸式增长，传统的数据管理方式逐渐显得力不从心。尤其是在深度学习领域，处理高维度数据和管理复杂数据版本历史成为了一大挑战。Activeloop Deep Lake 在这种背景下诞生，不仅能够存储向量和元数据，还可以进行数据的版本控制，使得大规模数据管理更加高效。

2025-01-22 03:11:12 309

原创使用UnstructuredLoader加载多类型文件的实战指南

Unstructured是一个强大的库，专用于处理多种非结构化数据文件。它提供了一个统一的接口来加载和解析不同类型的文档，支持本地和远程服务模式。特别是通过结合LangChain，可以极大地简化对复杂文档的处理。

2025-01-22 01:13:04 487

原创使用ChatLlamaCpp和Llama CPP Python进行聊天模型集成

随着自然语言处理技术的不断发展，越来越多的应用需要集成复杂的聊天模型以提高交互能力。ChatLlamaCpp是一个基于Llama CPP Python库构建的聊天模型，支持多种功能调用和结构化输出，非常适合用于构建工具调用链和代理。

2025-01-22 00:01:27 441

原创使用Exa Search进行高效信息检索

Exa Search提供了一种高效的信息检索机制，通过与langchain的集成，开发者可以轻松将其应用于各种AI解决方案中。它不仅提升了检索速度，还提高了检索结果的相关性，使得数据处理更加高效。

2025-01-21 11:45:36 250

原创如何在AI应用中使用Couchbase作为缓存与存储

在构建AI应用时，数据存储和缓存机制直接影响模型的响应时间和整体效率。传统的关系型数据库在伸缩性和性能上可能存在瓶颈，因此选择支持分布式架构的NoSQL数据库能够显著提高系统的灵活性和处理能力。Couchbase不仅提供了高效的数据存储和检索，还在语义缓存和高效查找方面有着独特的优势。

2025-01-21 11:34:33 512

原创使用 LangChain 集成 Amazon AWS 平台的指南

LangChain 是一个强大的 Python 库，专注于简化与不同 AI 服务的集成。通过专门为 Amazon AWS 平台设计的和包，开发者可以访问 Amazon 的多种 AI 和数据服务。

2025-01-21 09:03:55 386

原创 LangServe：快速部署和运行LangChain的实用指南

LangServe是一个基于Python的库，整合了FastAPI和Pydantic技术，用于将LangChain的运行单元（Runnables）和链路（Chains）以REST API形式发布。同时，它提供了一个客户端库，可用于访问部署在服务器上的运行单元。此外，LangChain.js还提供了一个JavaScript客户端，便于在前端应用中集成和调用。

2025-01-21 08:47:29 666

原创使用LangGraph替代RefineDocumentsChain进行文档总结

将文本拆分为较小的文档。对第一个文档应用处理过程。根据下一个文档更新或细化结果。重复以上步骤直至完成。当总结的文本超出LLM（如GPT-3）的上下文窗口时，这种方法尤其有效。相比之下，LangGraph的实现更具优势，因为它允许我们在执行过程中动态监控和调节执行顺序，还支持流式处理和组件模块化扩展。

2025-01-21 08:30:47 352

原创 [如何从工具返回工件]

在LangChain工具系统中，Tool和接口使得我们能够区分工具输出中是模型需要的部分（即），和用于模型外部的部分（使用这些接口，可以有效地管理工具输出。版本要求: 确保版本在0.2.19及以上。

2025-01-21 05:53:34 161

原创使用 Tokenizers 分割文本：深入了解与实践

自然语言处理中的 tokenization 是指将文本拆分为更小的、可管理的单元，称为 tokens。使用 tokenizer 帮助我们精确地计算文本中的 tokens 数量，从而确保文本块的大小在语言模型的限制之内。流行的 tokenizer 包括tiktoken和spaCy等。

2025-01-21 05:13:40 607

原创使用递归字符文本分割器实现文本分割

在自然语言处理和文本分析中，将一段大的文本分割成更小的、语义上相关的部分是常见需求。这篇文章将介绍一种基于字符的递归文本分割方法，该方法通过一组字符来参数化，并根据这些字符依次进行分割，直到小块足够小为止。默认的字符列表为，即优先按段落、句子和词来分割文本，以保留最大的语义块。

2025-01-21 04:39:50 281

原创如何在检索应用中实现按用户检索

在用户检索场景中，通常需要确保每个用户只能访问和检索到他自己上传或拥有的文档，而无法访问其他用户的数据。确保所使用的检索器支持多用户：不同的向量存储库和检索器可能有不同的参数来支持多用户模式，例如命名空间（namespace）、多租户（multi-tenancy）等。将多用户参数添加为链的可配置字段：这样可以在运行时轻松调用链并配置相关的标志。接下来，我们将以Pinecone向量存储库为例，逐步展示如何在代码中实现这一功能。

2025-01-21 04:17:30 674

原创利用 Parent Document Retriever 实现文档检索中的平衡

在信息检索领域，文档的拆分与组合一直是个难题。我们希望文档足够小，以便其嵌入能精确地反映其含义；然而，如果过长，嵌入可能会失去实际意义。同时，也希望文档足够长，以保留每个片段的上下文。当文档过长时，检索的准确度可能降低。为了在这之间取得平衡，Parent Document Retriever 分析并存储了小块数据，并在检索时首先获取小块，再查找这些块的父IDs，从而返回较大的文档。

2025-01-21 03:55:16 307

原创使用长上下文重排序缓解信息“迷失在中间”效应

在基于检索增强生成（RAG）的应用程序中，随着取回的文档数量增加（例如超过十个），性能可能会显著下降。通常，对向量存储的查询会返回按相关性降序排列的文档（例如，按嵌入的余弦相似度衡量）。为了减轻信息“迷失在中间”效应，可以在检索后重新排序文档，使最相关的文档位于两端（例如，上下文的第一和最后），而最不相关的文档位于中间。首先，我们将一些人工文档嵌入并在Chroma向量存储中索引它们。结果表明，重新排序后的文档可更有效地帮助模型回答问题，如关于Celtics的细节。如上所示，文档按对查询的相关性降序返回。

2025-01-21 02:41:16 116

原创使用Unstructured和BeautifulSoup4加载HTML到LangChain Document对象

在现代Web开发中，HTML（HyperText Markup Language）是用于展示文档的标准标记语言。为了在不同的应用或处理流程中使用这些HTML文档，我们需要将其解析成可以进一步处理的数据结构。在本文中，我们将详细讲解如何使用Unstructured和BeautifulSoup4两个强大的工具，将HTML文档加载到LangChain的Document对象中。解析HTML文件通常需要使用专门的工具和库。Unstructured和BeautifulSoup4是两个流行的Python库，分别提供了强大

2025-01-21 00:22:08 496

原创使用LangChain构建查询过滤器的实践指南

LangChain是一种用于构建复杂AI应用程序的框架，特别适用于管理和操作训练有素的语言模型。在查询分析中，我们可以要求语言模型将查询描述为一个Pydantic模型。接下来，需要将这个Pydantic模型转换为可传递给特定检索器的过滤器。虽然可以手动完成这个转换过程，但LangChain提供的"Translators"可以自动执行这项工作，大大提高了开发效率。

2025-01-20 21:37:24 446

空空如也

空空如也