LangChain项目中使用JSONLoader加载和处理JSON数据的技术指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00527/article/details/148323040

LangChain项目中使用JSONLoader加载和处理JSON数据的技术指南

langchain LangChain是一个由大型语言模型 (LLM) 驱动的应用程序开发框架。。源项目地址：https://github.com/langchain-ai/langchain 项目地址: https://gitcode.com/gh_mirrors/la/langchain

什么是JSON和JSON Lines

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，采用完全独立于语言的文本格式来存储和传输数据。它由键值对组成，易于人阅读和编写，同时也易于机器解析和生成。

JSON Lines（JSONL）是JSON的一种变体格式，特点是每行都是一个独立的JSON对象，这种格式特别适合处理大型数据集和流式数据。

LangChain中的JSONLoader介绍

在LangChain项目中，JSONLoader是一个强大的工具，它能够将JSON和JSONL格式的数据转换为LangChain的Document对象。Document对象是LangChain中的基本数据结构，包含文本内容(page_content)和元数据(metadata)两部分。

JSONLoader的核心功能包括：

使用jq语法精确提取JSON中的特定字段
支持将提取的数据映射到Document的内容或元数据
提供灵活的元数据处理机制

准备工作

在使用JSONLoader之前，需要确保已安装必要的依赖：

pip install jq

然后导入相关模块：

from langchain_community.document_loaders import JSONLoader
import json
from pathlib import Path

基础用法：提取JSON内容

假设我们有一个社交平台对话记录的JSON文件，结构如下：

{
  "messages": [
    {"content": "Hi there!", "sender_name": "User1", "timestamp": 123456},
    {"content": "Hello!", "sender_name": "User2", "timestamp": 123457}
  ]
}

要提取所有消息内容，可以这样使用JSONLoader：

loader = JSONLoader(
    file_path='./chat.json',
    jq_schema='.messages[].content',
    text_content=False
)

documents = loader.load()

这里的jq_schema='.messages[].content'表示：

.messages：访问JSON中的messages字段
[]：遍历数组中的每个元素
.content：提取每个元素的content字段

处理JSON Lines文件

对于JSON Lines格式的文件（每行一个JSON对象），需要设置json_lines=True参数：

loader = JSONLoader(
    file_path='./chat_messages.jsonl',
    jq_schema='.content',
    json_lines=True
)

documents = loader.load()

高级用法：提取元数据

在实际应用中，我们通常不仅需要提取内容，还需要保留相关的元数据。JSONLoader提供了metadata_func参数来实现这一需求。

def extract_metadata(record: dict, metadata: dict) -> dict:
    metadata["sender"] = record.get("sender_name")
    metadata["timestamp"] = record.get("timestamp_ms")
    return metadata

loader = JSONLoader(
    file_path='./chat.json',
    jq_schema='.messages[]',
    content_key="content",
    metadata_func=extract_metadata
)

documents = loader.load()

这样生成的每个Document对象都会包含消息内容和发送者、时间戳等元数据。

元数据处理技巧

metadata_func提供了对元数据的完全控制权，我们可以实现各种高级处理：

重命名默认元数据字段：

def process_metadata(record, metadata):
    metadata["document_source"] = metadata.pop("source")
    metadata["document_sequence"] = metadata.pop("seq_num")
    return metadata

条件性添加元数据：

def smart_metadata(record, metadata):
    if record.get("priority"):
        metadata["priority"] = "High" if record["priority"] > 5 else "Low"
    return metadata

元数据格式化：

def format_metadata(record, metadata):
    if "timestamp" in record:
        metadata["date"] = convert_timestamp(record["timestamp"])
    return metadata