LM 格式强制器（LM Format Enforcer）：引导语言模型输出结构化数据

最新推荐文章于 2025-02-28 04:26:57 发布

吕岚伊

最新推荐文章于 2025-02-28 04:26:57 发布

阅读量815

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_01020/article/details/141119542

LM 格式强制器（LM Format Enforcer）：引导语言模型输出结构化数据

1. 项目介绍

LM Format Enforcer 是一个库，旨在确保语言模型（LLM）的输出遵循指定的数据格式，如 JSON Schema 或正则表达式。该项目不仅仅提供建议性结构输出，而是能够“强制”LLM 输出符合预期的模式。它支持本地 LLM，目前兼容 LlamaCPP 和 HuggingfaceLLM 后端，并通过处理 LLM 的输出 logit 来工作，这使得它能够支持高级生成方法，如束搜索和批处理。

2. 项目快速启动

要开始使用 LM Format Enforcer，首先确保安装了必要的依赖项：

pip install lm-format-enforcer

然后，可以使用以下代码示例来演示如何限制 LLM 生成符合 JSON Schema 结构的文本：

from pydantic import BaseModel
from lmformatenforcer import JsonSchemaParser
from lmformatenforcer.integrations.transformers import *

class Album(BaseModel):
    title: str
    artist: str
    songs: list

schema = JsonSchemaParser.parse_schema(Album)

# 假设 `my_language_model` 是你的 LLM
output = my_language_model.generate(prompt, max_length, num_return_sequences, **schema)

在上面的例子中，prompt 应该是一个提示，max_length 和 num_return_sequences 是模型生成参数，而 **schema 将 JSON Schema 对象作为额外的输入传递给模型。

3. 应用案例和最佳实践

示例1：结构化音乐专辑数据生成

假设你想让 LLM 生成一个包含歌曲列表的音乐专辑描述，你可以定义一个 JSON Schema 并使用 LM Format Enforcer 强制其遵循这个结构：

{
  "$schema": "http://json-schema.org/draft-07/schema",
  "title": "Album",
  "type": "object",
  "properties": {
    "title": {"type": "string"},
    "artist": {"type": "string"},
    "songs": {
      "type": "array",
      "items": {
        "type": "object",
        "properties": {
          "title": {"type": "string"},
          "duration": {"type": "integer"}
        }
      }
    }
  },
  "required": ["title", "artist", "songs"]
}

然后，利用这个 schema 创建一个提示并生成结构化的专辑描述。