进行评测之前,首先要明确评测对象:是评测大模型生成文本的质量,还是评测大模型应用(例如RAG)的性能?两者之间存在一定关联性,但又不尽相同。本文介绍评测大模型生成能力的指标和方法。
传统统计指标
理论上,所有传统的文本生成评价指标都能用于评测大模型,如BLEU、ROUGE等。但是,这些统计指标既没有融合语义信息,也不能反映推理能力。
以BLEU为例,通过计算生成文本和金标准之间的重合的n-gram占生成文本的比例,衡量生成文本(例如机器翻译)的准确性。但是,n-gram之间的匹配度真能准确表现语义相似度吗?
ROUGE也面临同样问题。事实上,OpenAI在22年发表的RLHF的经典论文 Learning to summarize from human feedback 在摘要中就指出ROUGE只是对生成文本质量的粗略评估。也正是为了颠覆ROUGE这样的粗糙指标,这篇论文提出RLHF方法,直接把AI送进大模型时代。
当然,统计指标并非一无是处,至少它们具有很高的可靠性:计算公式明明白白,分数高低一算便知,谁也改不了。有些生成任务仍需要用准确率、召回率等传统指标衡量,例如“伪装”成生成任务的分类任务等。所以传统统计指标仍然活跃在大模型评测一线。
LLM-as-a-Judge
为了评测生成文本的语义信息,人们想出了用深度学习模型评价生成文本的方法。一个经典方法是BERTScore,下图展示了它计算召回指标的过程:
可以看出,BERTScore通过计算生成文本和金标准之间每个token embedding之间的相似度,作为衡量生成文本召回表现的指标。实际上,BERT算是一种特殊的LLM,参数量放在几年前看也是相当巨大的。只不过如今基于GPT的LLM层出不穷,BERT也略显暗淡。
但是,“用模型评测模型”的思路并没有问题。既然现在最强大的模型是LLM,何不直接用LLM评价生成质量?于是LLM-as-a-Judge应运而生。下面介绍几个经典LLM-as-a-Judge方法。
-
G-Eval
2023年由微软提出。以下图为例:假设要评价新闻摘要的连贯性,首先把任务和评价标准的描述输入大模型,大模型自动生成详细的评价步骤思维链;然后把原文、摘要和评价步骤拼接起来,形成完整的提示词输入模型,让模型输出摘要评分。
然而,大模型倾向于输出整数,或者总是输出相同的分数。为了避免这种情况,G-Eval不是让大模型直接输出一个分数,而是输出在各分数上的概率分布,最终评分是所有分数的加权平均。
-
GPTScore
2023年由新加坡国立大学和卡内基梅隆大学提出。以下图为例:假设要让大模型评价摘要的相关性,首先把任务描述、领域定义以及一些示例填进模板,然后拼接待评价的摘要以及原文形成完整提示词,输入大模型。注意,这里要求大模型输出刚刚输入的提示词。(如果是用OpenAI API,就要设置logprobs参数并把echo置为True。)最后计算待评价摘要对应的每个token的logprob之和。
GPTScore基于这样一个假设:给定任务和评价标准的描述,大模型倾向于生成高质量文本。因此,要评价一段生成文本的质量,只需要计算大模型生成这段文本的概率:概率越大,质量越高。
-
SelfCheckGPT
2023年由剑桥大学提出。这个方法专门用于评测大模型的幻觉。它基于一个非常直观的假设:如果一个大模型确实具备某项知识,那么对它多次采样生成的回复中有很大概率包含与该知识一致的事实;相反,如果大模型的多次回复自相矛盾,就说明大模型不具备这项知识,它产生了幻觉。
以下图为例:假设要评测GPT-3生成的一段文本中的某句话是否为幻觉,可以从GPT-3采样N个回复,把这些回复和待检测的句子输入一个大模型,判断有几个回复可以支持这句话,算出比例作为评分。
综上所述,传统统计指标具有良好的可靠性,但是它们不能精准测算生成文本的质量高低。LLM-as-a-Judge能够接收详细的评测标准描述信息,充分对齐人类意图,因而具有良好的精准性,但是受限于生成式模型的通病,可靠性不如传统的统计指标。这两种评测方法将互相补充,长期共存。
如何学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
学习路线
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓