使用TensorFlow Datasets加载多语言问答数据-CSDN博客

本文链接：https://blog.csdn.net/Shell726/article/details/145328320

在机器学习项目中，数据的获取和处理是关键步骤之一。TensorFlow Datasets (TFDS) 提供了一套易于访问的高性能输入管道，方便用户使用现成的数据集。本文将重点介绍如何将TensorFlow Datasets中的数据加载到可用于下游任务的文档格式中，具体以多语言问答数据集MLQA为例。

技术背景介绍

MLQA（Multilingual Question Answering）数据集是一个用于评估多语言问答性能的基准数据集，涵盖了包括阿拉伯语、德语、西班牙语、英语、印地语、越南语和中文在内的七种语言。利用TensorFlow Datasets，我们可以轻松加载并进行处理。

核心原理解析

TFDS提供的数据集可以直接作为tf.data.Dataset对象加载，便于在TensorFlow中构建高效的数据管道。我们需要根据需求，将这些数据转换成自定义的文档格式，以便在其他应用或分析任务中使用。

代码实现演示

我们将以MLQA数据集的英语测试集为例，演示从数据加载到文档格式转换的完整过程。

首先，确保安装了必要的包：

%pip install --upgrade --quiet tensorflow
%pip install --upgrade --quiet tensorflow-datasets

接着，加载数据集并实现自定义转换函数：

import tensorflow as tf
import tensorflow_datasets as tfds
from langchain_core.documents import Document

# 加载 mlqa/en 数据集的测试集部分
ds = tfds.load("mlqa/en", split="test")
ds = ds.take(1)  # 仅取一个数据样本

def decode_to_str(item: tf.Tensor) -> str:
    """助手函数，将tf.Tensor转换为字符串。"""
    return item.numpy().decode("utf-8")

def mlqaen_example_to_document(example: dict) -> Document:
    """将MLQA样本转换为Document对象。"""
    return Document(
        page_content=decode_to_str(example["context"]),
        metadata={
            "id": decode_to_str(example["id"]),
            "title": decode_to_str(example["title"]),
            "question": decode_to_str(example["question"]),
            "answer": decode_to_str(example["answers"]["text"][0]),
        },
    )

# 转换样本为Document对象
for example in ds:
    doc = mlqaen_example_to_document(example)
    print(doc)
    break

在以上代码中，我们通过decode_to_str函数将TensorFlow张量转换为Python字符串，并在mlqaen_example_to_document函数中自定义转换逻辑，将样本数据转化为Document对象。

接下来，我们使用TensorflowDatasetLoader类来加载并转换多个样本：

from langchain_community.document_loaders import TensorflowDatasetLoader

loader = TensorflowDatasetLoader(
    dataset_name="mlqa/en",
    split_name="test",
    load_max_docs=3,
    sample_to_document_function=mlqaen_example_to_document,
)

docs = loader.load()

# 验证转换结果
print(len(docs))
print(docs[0].page_content)
print(docs[0].metadata)