如何让LLM准确地输出一个json

这一直是一个难题,因为LLM具有很大的不确定性,而且如果你用过,你一定会看到类似于以下的输出情况:

  1. 啰嗦的输出
AI:好的,以下是对问题的json输出:
```json
{
	"score":"yes"
}
```<eos>
  1. 形式错误
AI:{
	'score':'yes'
}

显然,一个dict应该用双引号而不是单引号。
有时甚至直接不输出json

AI:yes

————————————————————————

怎么解决

没什么好办法。说几个弥补的办法。

  1. 换个prompt
    这就纯抽奖了,希望prompt小做改变能输出规范化。

  2. 二次输出
    直接让一次输出兼顾信息抽取和格式规范化,在复杂任务上,7B模型都有点力不从心。所以可以先让LLM用自然语言输出一下分析,第二次再把分析中蕴含的答案变成结构化json。
    这不是个好办法。

  3. 预生成
    如果我们规定第一个输出的token是"{",然后prompt也要求json输出,是否能很好地引导出格式化json?
    这是一个很机智的办法,甚至靠这一招还能诱导LLM输出那些它被“教育“不能生成的那些东西。详情看这里。

  4. outlines框架
    json其实是有很严格的输出结构的,{后面必须是",第一个"肯定是key的,key之后肯定是 “:”,然后是value。这能写成一个有限状态机。outlines就是靠这个狠狠卡住了输出。不过我不知道如果没卡住要怎么办。我猜是直接在一开始强制生成{",然后强制不生成",直到生成一个合法的key,然后再遇到一个",然后继续强制。如果真是如此,这应该算预生成的进阶了。

  5. function call功能
    去年openai对此需求的解决办法是function call,智谱也是这样。在langchain里,如果你设定了一个json输出解析器,而且使用了api,你有权选择是用function call生成json还是LLM直接生成。选择不同,具体到openai或者智谱那边形成的prompt也就不同。
    function call本质也是一个LLM训练的结构化输出,而且训练得够好,够稳定,比起要求LLM输出json,由function call格式代替然后转变成json更好。本质是使用了LLM功能中完全不同的两个输出规范。
    LLM增加的function call功能是在prompt给一个json格式的tools描述,然后告诉llm该调用就调用。llm被训练为在需要call时,先生成一个特殊的function call的前置token,然后生成对应的描述tool调用的json。这个前置token等于一个预填充的引导,但是是由llm自己生成而不是你插手的。如果是你自己本地部署的带function call的模型,你甚至可以预填充一个前置token,两种方法结合,强强联合了属于是。

### 使用LLM生成JSON格式输出的最佳实践 为了实现通过大语言模型(LLM)生成指定格式的 JSON 数据以提高实体关系识别效果,开发者应遵循一系列最佳实践来确保生成的数据既符合预期结构又具有高准确性。 #### 1. **明确输入和输出格式** 在设计 LLM 应用程序时,需清晰定义输入数据的形式及其对应的期望输出。例如,如果目标是从一段文本中提取实体关系并将其转换为 JSON 格式,则应在提示模板中明确规定所需字段名称、嵌套层次以及其他约束条件[^4]。 ```json { "entity_1": { "name": "", "type": "" }, "relation": "", "entity_2": { "name": "", "type": "" } } ``` 此示例展示了如何构建一个简单的 JSON Schema 来指导 LLM 输出标准化的结果。 #### 2. **利用验证工具保障质量** 由于自由形式的语言生成可能存在偏差或错误,因此建议采用专门用于模式校验的技术手段如 Pydantic 或者其他类似的库来进行实时反馈修正。这些框架允许我们轻松地声明复杂对象属性的同时还能自动执行必要的类型检查逻辑[^5]。 ```python from pydantic import BaseModel, Field class Entity(BaseModel): name: str = Field(..., description="The entity's full name.") type_: str = Field(alias='type', ..., description="Category of the entity.") class RelationData(BaseModel): entity_1: Entity relation: str = Field(..., description="Relationship between two entities.") entity_2: Entity ``` 以上代码片段展示了一个基于 `Pydantic` 定义的数据类,该类可用于解析由 LLM 返回的标准 JSON 结构,并提供即时错误检测功能。 #### 3. **持续迭代优化提示工程** 针对特定任务调整和完善提示语句至关重要。这不仅涉及简单描述需求本身,还需要考虑加入更多上下文信息帮助理解意图;同时也要注意控制长度以免增加不必要的计算负担[^1]。 --- ### 不同LLM在实体关系提取中的表现比较 当评估各种预训练好的大型神经网络架构对于抽取文档间潜在联系的能力时,可以从以下几个维度展开分析: - **泛化能力** 某些通用领域内的超大规模参数量级模型可能展现出更强适应新场景下的未知样本分布特性,但与此同时也会面临过拟合风险较高这一缺点。 - **定制适配程度** 经过微调后的专用版次通常能够更好地满足具体行业应用场景的要求,比如医疗健康记录管理平台就需要特别注重保护患者隐私安全等方面的规定[^3]。 - **资源消耗情况** 运行效率也是衡量优劣的重要指标之一,尤其是在移动终端设备上部署解决方案的时候更是如此。较小尺寸却依然保持良好精度水平的小型变体往往更加受欢迎[^2]。 综上所述,选择合适的LMM取决于项目本身的特殊性和优先考量因素之间的平衡取舍过程。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值