自动化文档元数据标注：极简指南-CSDN博客

本文链接：https://blog.csdn.net/aehrutktrjk/article/details/142707420

自动化文档元数据标注：极简指南

引言

在处理大量文档时，标注结构化的元数据（如文档标题、语调或长度）可以提高后续的相似性搜索的准确性。然而，这种标注过程如果手动进行，会非常繁琐。OpenAI Metadata Tagger 文档转换器通过使用可配置的OpenAI Functions驱动链，自动化提取元数据，简化了这一过程。本篇文章将详细介绍如何使用该转换器，并提供实用的代码示例。

主要内容

初始化文档转换器

首先，我们需要定义一个JSON模式来描述我们希望提取的元数据结构。然后，我们实例化一个支持函数功能的OpenAI模型，并使用这些要素创建文档转换器。

from langchain_community.document_transformers.openai_functions import create_metadata_tagger
from langchain_core.documents import Document
from langchain_openai import ChatOpenAI

# 定义元数据模式
schema = {
   
    "properties": {
   
        "movie_title": {
   "type": "string"},
        "critic": {
   "type": "string"},
        "tone": {
   "type": "string", "enum": [