A Literature Review and Framework for Human Evaluation of Generative Large Language Models

本文是LLM系列文章,针对《A Literature Review and Framework for Human Evaluation of Generative Large Language Models in Healthcare》的翻译。

医疗保健中生成式大型语言模型的人类评估文献综述和框架

摘要

随着生成式人工智能 (AI),尤其是大型语言模型 (LLM),继续渗透到医疗保健领域,用人工专家评估来补充传统的自动评估仍然至关重要。理解和评估生成的文本对于确保安全性、可靠性和有效性至关重要。然而,人工评估的繁琐、耗时和非标准化性质为在实践中广泛采用 LLM 带来了重大障碍。本研究回顾了关于医疗保健领域 LLM 人类评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显着需求。我们广泛的文献检索遵循系统评价和荟萃分析的首选报告项目 (PRISMA) 指南,涵盖 2018 年 1 月至 2024 年 2 月的出版物。这篇综述全面概述了各种医疗保健应用中使用的人体评估方法。该分析考察了各种医学专业对 LLM 的人类评估,涉及评估维度、样本类型和大小、评估者的选择和招募、框架和指标、评估过程以及结果的统计分析等因素。借鉴这些研究中强调的各种评估策略,我们提出了一个全面而实用的生成式 LLM 人类评估框架,命名为 QUEST:信息质量、理解和推理、表达风格和角色、安全和伤害以及信任和信心。该框架旨在通过定义明确的评估维度和提供详细的指南,提高生成式 LLM 在不同医疗保健应用中的人类

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
为评估生成模型的改进精确度和召回率指标,首先需要理解生成模型的基本概念。生成模型是一种用于根据给定的输入数据生成新样本的机器学习模型。它可以学习数据的分布,并生成与训练数据相似的新样本。 精确度和召回率是评估模型性能的重要指标。精确度衡量模型生成的样本中正确样本的比例,而召回率衡量模型是否能够完整地生成真实样本的比例。 对于评估生成模型的精确度和召回率,可以考虑以下改进指标: 1. 平均精确度:除了计算总体精确度外,还可以计算每个类别的精确度,并求其平均值。这可以帮助我们了解模型在不同类别上的性能差异,并对结果进行更精细的分析。 2. 样本多样性:在评估生成模型时,除了关注精确度和召回率,还应注意样本生成的多样性。生成模型应该能够生成多样化的样本,而不仅仅是在训练数据上的复制。我们可以使用多样性指标,如样本覆盖率和互信息来衡量生成样本的多样性。 3. 异常检测:生成模型应能够生成稀有或异常样本。因此,我们可以引入一个异常检测指标,例如生成模型中的KL散度,以评估模型对于异常样本的生成能力。 4. 推断速度:对于生成模型的评估,推断速度也是一个重要的指标。快速的推断能力可以提高模型的实时性,使其适用于许多实际应用。 通过引入这些改进指标,我们可以更全面地评估生成模型的性能。这些指标可以提供有关模型的精确度、召回率、样本多样性、异常检测和推断速度等方面的信息,帮助我们更好地了解生成模型的潜力和局限性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值