J-LangChain，用Java实现LangChain编排！轻松加载PDF、切分文档、向量化存储，再到智能问答

花千树-010

已于 2025-02-27 11:48:32 修改

阅读量1.6k

点赞数 36

分类专栏： JLangChain-TG 文章标签： langchain java pdf AIGC nlp AI编程

于 2025-02-27 08:00:00 首次发布

本文链接：https://blog.csdn.net/fenglingguitar/article/details/145892452

版权

JLangChain-TG 专栏收录该内容

2 篇文章

订阅专栏

Java如何玩转大模型编排、RAG、Agent？？？

在自然语言处理（NLP）的浪潮中，LangChain作为一种强大的模型编排框架，已经在Python社区中广受欢迎。然而，对于Java开发者来说，能否有一个同样高效、灵活的工具来实现类似功能？答案是肯定的！今天，我们将聚焦 J-LangChain——一个专为Java打造的LangChain实现，带你探索如何用Java语言轻松构建从PDF处理到智能问答的现代NLP系统。

J-LangChain：Java世界的LangChain

J-LangChain 是一个开源的Java框架，灵感来源于LangChain，旨在为Java开发者提供一个链式模型编排工具。它不仅支持多步骤的推理和数据处理，还能无缝集成现代语言模型（如ChatGPT、Ollama）和向量存储（如Milvus），让Java开发者也能享受到LangChain带来的便利。

与其他语言实现的框架不同，J-LangChain充分利用了Java的强类型和企业级特性，使其特别适合需要高性能和稳定性的场景。想一窥究竟？访问它的GitHub仓库吧：GitHub - J-LangChain！

为什么选择J-LangChain？

Java原生：无需跨语言桥接，直接在Java生态中实现LangChain的模型编排。
模块化设计：支持文档加载、切分、向量化、检索和生成等步骤，灵活组合。
企业友好：与Java生态（如Spring Boot）无缝集成，适合大规模应用。

实战：用J-LangChain实现PDF问答

步骤1：加载PDF文档

J-LangChain提供PdfboxLoader，让Java开发者轻松解析PDF文件：

PdfboxLoader loader = PdfboxLoader.builder()
    .filePath("./files/pdf/en/Transformer.pdf")
    .extractImages(false) // 不处理图片
    .build();
List<Document> documents = loader.load();
System.out.println("Load documents count:" + documents.size());

步骤2：切分文档

利用StanfordNLPTextSplitter，将长文档切分为适合处理的片段：

StanfordNLPTextSplitter splitter = StanfordNLPTextSplitter.builder()
    .chunkSize(1000)
    .chunkOverlap(100)
    .build();
List<Document> splits = splitter.splitDocument(documents);
System.out.println("Splits count:" + splits.size());

步骤3：向量化与存储

通过OllamaEmbeddings生成向量，并存储到Milvus，这一切都在Java中完成：

VectorStore vectorStore = Milvus.fromDocuments(
    splits,
    OllamaEmbeddings.builder().model("nomic-embed-text").vectorSize(768).build(),
    "JLangChain");
System.out.println("Save success");

步骤4：链式编排问答流程

J-LangChain的链式设计是其核心亮点。以下代码展示了如何用Java实现从检索到生成的完整流程：

String promptTemplate = """
    Please provide the following text content:
    
    ${text}
    
    Answer the question:${question}
    """;

BaseRetriever baseRetriever = vectorStore.asRetriever();
ChatOllama llm = ChatOllama.builder().model("deepseek-r1:7b").build();

FlowInstance chain = chainActor.builder()
    .next(baseRetriever) // 检索相关文档
    .next(formatDocs)   // 格式化文档内容
    .next(input -> Map.of("text", input, "question", ContextBus.get().getFlowParam()))
    .next(PromptTemplate.fromTemplate(promptTemplate)) // 构造提示
    .next(llm)          // 调用语言模型
    .next(new StrOutputParser()) // 解析输出
    .build();

ChatGeneration result = chainActor.invoke(chain, "Why is masking necessary in the decoder’s self-attention mechanism?");
System.out.println("Chat Result:" + result);