背景
1、为什么需要大模型应用评测?
大模型应用(如分类模型、问答系统)目前来说不可控风险高。
1、评测不仅是技术验证,更是业务优化和风险控制的核心手段。
2、评测数据可直接指向模型应用弱点,帮助团队高效迭代优化。
3、评测系统能帮助我们做大模型应用的回归测试。
2、分类模型评测的重要性
核心业务目标:确保标签预测的准确性,避免因误判或漏判导致的业务损失。
应用场景举例:
● 客户服务:将用户投诉自动分类为“技术问题”“账单争议”“服务态度”等类别,以便快速派单处理。
● 故障打标:根据故障复盘文档精准打标,用户故障分析,提高业务稳定性。
评测带来的业务价值:
● 精准性:分类错误可能导致错误决策。例如:将“网络故障”误分类为“系统更新问题”,延误问题解决时间。
● 成本效率:准确分类可减少人工复核工作,并加速流程自动化。
3、RAG系统评测的重要性
核心业务目标:确保回答的“准确性、安全性和可信度”,避免因错误回答引发的直接风险或间接声誉损失。
应用场景举例:
● 智能客服:回答客户的“退款政策”“产品功能”等问题。
● 内部知识管理:员工提问“财务合规流程”,系统需从文档库中快速精准引用相关内容。
● 个性化推荐:根据用户历史行为推荐商品或服务,回答需结合实时数据和长期政策。
评测带来的业务价值:
● 可靠性:回答是否基于权威文档?例如:避免客服机器人因引用错误合同条款而误导用户。
● 合规性:回答是否符合行业法规?例如:金融问答系统必须避免涉及内幕交易的敏感信息。
● 用户体验一致性:同一问题得到的回答是否稳定?例如:用户多次询问“退货流程”得到不同步骤,会降低信任度。
分类模型测评
二分类应用
二分类模型就是一个”是”与否“的智能判断器。例如,判断垃圾邮件—”是“或”否“。
混淆矩阵
混淆矩阵是一个4格计分板,记录模型在测试中的表现:
混淆矩阵 | 预测是 | 预测否 |
---|---|---|
实际是 | TP(True Positive) | FN(False Negative) |
实际否 | FP(False Positive) | TN(True Negative) |
TP:当模型预测为正类,并且该预测是正确的,我们称之为真正(True Positive)。
TN:当模型预测为负类,并且该预测是正确的,我们称之为真负(True Negative)。
FP:当模型预测为正类,但该预测是错误的,我们称之为假正(False Positive),这就是统计学上的第二类错误(Type II Error)。
FN:当模型预测为负类,但该预测是错误的,我们称之为假负(False Negative),这就是统计学上的第一类错误(Type I Error)。
关键指标
1. 正/准确率(Accuracy),模型预测完全正确的比例。
当数据类别不均衡时,容易产生误导(例如:99%的数据是“安全包裹”,模型全部预测为“安全”也能得到99%的正确率,但对“危险包裹”完全无效)。
2. 精确率(Precision),模型标记为“正确”的预测中,实际确实正确的比例。
适用场景:误判代价高的场景,例如:模型预测“肿瘤存在”(阳性),但实际是误判会引发不必要的治疗。
3. 召回率(Recall),实际存在的正例中,被模型正确找出的比例。
适用场景:漏判代价高的场景,例如:火灾报警系统,漏掉警报可能导致重大事故。
4. F1分数,精确率和召回率的平衡综合指标。
适用场景:所有正例和负例同等重要时(例如:分类垃圾邮件与正常邮件,两者错误的代价相近)。
示例
假设安检系统任务是:判断包裹是否为危险物品。测试数据:
- 实际危险包裹:100个(真实“是”:TP + FN = 100)
- 实际安全包裹:900个(真实“否”:TN + FP = 900)
- 模型预测结果:
○ 预测“是”(危险):50个 → 其中只有30个是真实危险(TP=30, FP=20)。
○ 预测“否”(安全):950个 → 其中880个是真实安全(TN=880, FN=70)。
指标 | 计算方式 | 结果 | 解读 |
---|---|---|---|
正确率 | (30+880)/1000 = 91% | 非常高! | 因为90%数据是安全包裹,模型大部分猜对了安全。 |
精确率 | 30/(30+20)=60% | 较低! | 20个误判的“危险”包裹浪费了人力复查。 |
召回率 | 30/(30+70)=30% | 非常低! | 漏掉了70个真实危险包裹(FN=70)威胁极大! |
F1分数 | 2×0.6×0.3/(0.6+0.3)=0.4 | 40% | 表明模型在精确与召回之间表现糟糕,需要优化。 |
多分类模型
多分类模型就像一个‘多选题’判卷人”。它能为一个样本标注多个正确的标签。图片标签:一张照片可能同时被标注成“海滩”,“日落”和“家庭聚会”。
思考一下,对于多分类模型应该怎么评测?
核心思路:为每个标签分类单独计算指标,通过聚合方法综合所有标签的指标,得到整体表现。
聚合方法
- 样本平均(Sample-Average)
- 定义:对每个样本的标签预测进行评分,取平均。
- 场景:允许标签部分错误,但希望评估模型在每个样本上的表现。
- 宏平均(Marco-Average)
- 定义:对每个标签单独计算指标,再取平均。
- 场景:所有标签同等重要需要关注每个标签的总体性能。
- 微平均(Micro-Average)
- 将所有标签的TP、FP、FN合并计算全局指标。
- 场景:标签分布不均衡(如某标签出现次数远多于其他标签)。
示例
现在我们有四篇文章,打标情况如下:
文章名 | 真实标签 | 预测标签 |
---|---|---|
doc1 | a,b,c | a,d,e |
doc2 | c,d,e | b,c,d |
doc3 | a,e | a,b,e |
doc4 | b,d | b,d |
样本平均计算:
文章 | 真实标签 | 预测标签 | TP | FP | FN | 精确率 | 召回率 | F1 |
---|---|---|---|---|---|---|---|---|
doc1 | a,b,c | a,d,e | 1 | 2 | 2 | 0.33 | 0.33 | 0.33 |
doc2 | c,d,e | b,c,d | 2 | 1 | 1 | 0.67 | 0.67 | 0.67 |
doc3 | a,e | a,b,e | 2 | 1 | 0 | 0.67 | 0.1 | 0.80 |
doc4 | b,d | b,d | 2 | 0 | 0 | 1.00 | 1.00 | 1.00 |
整体精确率:0.667
整体召回率:0.75
整体F1:0.7
宏平均计算:
标签 | 真实存在 | 预测存在 | TP | FP | FN | 精确率 | 召回率 | F1 |
---|---|---|---|---|---|---|---|---|
a | 1,3 | 1,3 | 2 | 0 | 0 | 1.00 | 1.00 | 1.00 |
b | 1,4 | 2,3,4 | 1 | 2 | 1 | 0.33 | 0.50 | 0.40 |
c | 1,2 | 2 | 1 | 0 | 1 | 1.00 | 0.50 | 0.67 |
d | 2,4 | 1,2,4 | 2 | 1 | 0 | 0.67 | 1.00 | 0.80 |
3 | 2,3 | 1,3 | 1 | 1 | 1 | 0.50 | 0.50 | 0.50 |
整体精确率:0.70
整体召回率:0.70
整体F1:0.673
微平均计算:
总TP:2(a)+1(b)+1©+2(d)+1(e) = 7
总FP:0(a)+2(b)+0©+1(d)+1(e) = 4
总FN:0(a)+1(b)+1©+0(d)+1(e) = 3
整体精确率:7 / (7 + 4) = 0.63
整体召回率:7 / (7 + 3) = 0.70
整体F1: 2 * 0.63 * 0.70/(0.63 + 0.70) = 0.67
其他评测指标
汉明损失率(Hamming Loss): 是多分类中错误率指标,表示预测错误的标签占总标签数的比例。
子集准确率(SubSet Accuracy):子集准确率也可以叫样本准确率, 是多标签分类中 最严格的指标,要求模型对一个样本的 所有标签预测完全正确。
RAG测评
黑盒测试
在 RAG 应用被视为一个黑盒时,我们只能访问三个关键信息:用户提问(User’s Query)、系统召回的引用上下文(Retrieved Contexts)以及系统的回答(RAG’s Response)。这三者构成了 RAG 流程中最重要的三元组,并通过两两之间的相关性相互制约。我们可以通过检测这三元组之间的相关度来评估 RAG 应用的效果。
- Context Relevance(上下文相关性)
定义:衡量召回的上下文对用户提问的支持程度。
意义:如果得分较低,说明系统召回了太多与问题无关的内容。这些不相关的上下文可能会误导语言模型(LLM),从而影响最终的回答质量。 - Faithfulness(忠实度)
定义:衡量生成的回答是否与召回的上下文保持事实一致性。
意义:如果得分较低,说明 LLM 的回答没有严格遵循召回的知识,导致幻觉(Hallucination)的可能性增加。 - Answer Relevance(回答相关性)
定义:评估生成的回答与用户提问的相关性。
意义:对于不完整或包含冗余信息的回答,会分配较低的分数。
如何定量这些指标?
如果每个回答都需要人类来打分,那就需要安排大量的劳动力,并且制定一定的指导标准。这种方法费时费力,不太现实。
现在比较先进的LLM,比如GPT-4,已经可以达到一个类似人类标注员的水平。它可以定量客观工作的进行打分,二是可以实现自动化。
LLM-as-a-Judge
白盒测试
在白盒视角下,我们可以观察到 RAG 应用的内部实现细节。以常见的 RAG 流程为例,其关键组件通常包括:
● Embedding Model:用于将文本转化为向量表示。
● Rerank Model:对初步检索结果进行重新排序。
● LLM:负责生成最终的回答。
● Search Algorithm:某些 RAG 系统可能涉及不同的搜索算法。
通过测试这些关键组件的性能,我们可以深入了解 RAG 流程中每一步的具体表现。此外,更换或升级这些组件也能显著提升 RAG 应用的整体性能。
RAGAS测评框架
基础概念
RAGAs(检索增强生成评估框架)是一个用于RAG流程的无需参考答案(ground truth)的评估框架。Ragas是一个框架,它可以帮助你从不同的方面评估你的问答(QA)流程。它为你提供了一些指标来评估你的问答系统的不同方面,具体包括:
● 评估检索(context)的指标:提供了上下文相关性(context_relevancy)和上下文召回率(context_recall),这些可以衡量你的检索系统的性能。
● 评估生成(answer)的指标:提供了忠实度(faithfulness),用以衡量生成的信息是否准确无误;以及答案相关性(answer_relevancy),用以衡量答案对问题的切题程度。
测评实战
环境准备:
install
测试集准备:
[
{
"user_input": "成龙是如何成为中国香港影视界的一代巨星的?",
"response": "Jackie Chan became a legendary figure in the Chinese Hong Kong film industry through his remarkable contributions and achievements. He started his career as a martial arts stuntman in the 1970s and gradually rose to prominence as an actor, director, producer, and singer Chan's success in the film industry can be attributed to his dedication, hard work, and unique style that combined martial arts with comedy He became one of the most influential Chinese martial arts stars after Bruce Lee, and his impact on the genre is undeniable \n\nOne of Jackie Chan's significant contributions was his role in bringing Chinese cinema to the international stage and breaking the stereotypes and prejudices associated with Chinese films He played a crucial role in promoting Hong Kong cinema and showcasing its talent and creativity to the world Additionally, Chan's success extended beyond his film career. He actively participated in various charitable activities and established the Jackie Chan Charitable Foundation to make a positive impact on society \n\nChan's influence on the development of the Chinese film industry is undeniable. He was considered the successor to Bruce Lee and played a crucial role in carrying on his legacy Chan's innovative approach to martial arts and comedy revolutionized the genre and paved the way for future generations of actors and filmmakers His success in Hollywood further solidified his as a global \n\nIn conclusion, Jackie Chan became a legendary figure in the Chinese Hong Kong film industry through his exceptional talent, hard work, and dedication. His contributions to the film industry, his philanthropic endeavors, and his ability to break barriers and stereotypes have made him a true in the world of cinema His unique style combining martial arts and comedy, along with his charismatic personality, have captivated audiences worldwide and cemented his as a one-of-a-kind superstar",
"retrieved_contexts": [
"$1$. 成龙(Jackie Chan),是1954年4月7日出生于中国香港,中国香港影视男演员、导演、制作人、编剧、歌手,国家一级演员。 1971年以武师身份进入电影圈。1978 ...",
"$2$. 大哥一次次刷新了香港的票房记录,他在功夫电影界的地位愈发凸显。 他成为李小龙之后最具影响力的华人功夫巨星。当然,这一切全是用命换来的。 在亚洲名气的 ...",
"$3$. 即使是一代巨星,也不得不向时代妥协。 但是不容置疑的是,成龙将中国电影带出了国门,打破了世界对于中国电影的偏见,也给港片带来了不可复制的光辉岁月 ...",
"$4$. ... 成龙保持了在影坛的常青树地位。在成为一个著名电影演员的同时,他也成长为著名的导演、制片人,他的成就被世界所认可,代表了亚洲的中国龙精神。电影 ...",
"$5$. ... 成为了香港电影界的一代巨星。 打开网易新闻查看精彩图片. 成龙的成功并不仅仅是在电影事业上,他也积极参与各种慈善活动,成立了“成龙慈善基金会 ...",
"$6$. 成龙对国内电影发展的贡献非常大,主要有一下几个方面: 第一:本来成龙就是被当做李小龙接班人推向市场的,那个时候香港电影就是指望有人能够承接李小龙意外离世所带来的 ...",
"$7$. 他是40年来无人能超越的动作巨星,破旧立新开创了功夫喜剧先河,后来又以“猛龙过江”之势征服好莱坞;他是功夫传人,电影行家、跨界高手、公益巨擘,几代 ...",
"$8$. We are all huge fans of Jackie Chan, and our project is dedicated to honoring and celebrating his incredible talent.Our project stands out by combining the world of cryptocurrency with the global admiration for Jackie Chan, creating a unique platform for fans to engage and participate in his legacy.Our project started as a shared passion among Jackie Chan fans, who wanted to create a token that pays homage to his iconic career while also supporting charitable initiatives in line with his values.We have exciting plans for the future, including expanding our community, partnering with charitable organizations, and developing innovative features that enhance the fan experience.Our token, JACKIE, can be used for various purposes within our ecosystem, such as participating in exclusive events, accessing special merchandise, and even voting on community-driven decisions.",
"$9$. 对成龙的评价,太多了。他是40年来无人能超越的动作巨星,破旧立新开创了功夫喜剧先河,后来又以“猛龙过江”之势征服好莱坞;他是功夫传人,电影行家、跨界高手、公益巨擘, ...",
"$10$. 成龙曾说:“这辈子,我们不要做第一,要做唯一。”正是如此真实的拼搏精神,让成龙成为华人功夫影史上绝无仅有的巨星。2016年,在电影界耕耘数年,海内外 ..."
],
"reference": "成龙(Jackie Chan)成为中国香港影视界的一代巨星,是通过他在电影方面的卓越成就、独特的表演风格以及长期的职业投入实现的。以下是他成名的几个关键因素:\n\n武术背景: 成龙自幼学习武术、戏剧和舞蹈,在中国戏曲学校接受了严格的训练。他的武术技巧和身体素质为他日后的动作片表演打下了坚实基础。\n\n独特的表演风格: 成龙开创了将武术、特技和喜剧元素相结合的电影风格。他的电影充满了惊险刺激的动作场面和幽默感,这种风格很快在观众中获得了巨大的受欢迎。\n\n亲自完成特技: 成龙在绝大多数电影中亲自完成危险的特技动作,这让他在观众中树立了“勇敢”和“真实”的形象,并赢得了极高的尊敬和认可。\n\n多才多艺: 除了作为动作演员,成龙还是一位导演、制片人和歌手。他在电影制作的多个方面展现了才华,增加了他的知名度和受欢迎度。\n\n丰富的影视作品: 成龙出演了大量电影,包括《警察故事》系列、《醉拳》和《尖峰时刻》系列等,这些作品在全球范围内广受欢迎,使他成为国际巨星。\n\n国际成功: 成龙在亚洲取得成功后,逐步进军好莱坞,成为首位在西方电影市场取得巨大成功的亚洲动作影星。他的跨文化魅力和通俗易懂的喜剧风格帮助他在国际舞台上取得成功。\n\n持续的职业生涯: 成龙的职业生涯跨越了几十年,期间他不断地演出和创作新作品,保持了高水平的职业活力和创新能力。\n\n通过这些努力,成龙不仅在香港和亚洲地区获得了巨大成功,还在国际上赢得了广泛的认可和尊敬,成为了真正的国际电影明星。"
},
{
"user_input": "成龙",
"response": "成龙(Jackie Chan)是中国香港影视男演员、导演、制作人、编剧、歌手,国家一级演员。他出生于1954年4月7日,是世界上最知名的明星之一。自20世纪60年代以来,他出演了150多部电影,引发了一种国际流行文化现象。他以其独特的动作风格和喜剧天赋而闻名,成为了动作片的代表人物。他还是一位武术指导和特技演员,他的电影作品充满了精彩的打斗场面和惊险刺激的特技表演。成龙的才华和贡献得到了广泛的认可,他曾获得过多个奖项和荣誉,包括SBS、MBE和PMW。他的影响力不仅限于电影界,还延伸到了其他领域,如音乐和慈善事业。他的粉丝们对他的才华和人格魅力深感敬佩,他们通过各种方式来表达对他的支持和爱戴。成龙的事业和影响力将继续发展,他将继续为观众们带来更多精彩的作品和表演。",
"retrieved_contexts": [
"$1$. 成龙(Jackie Chan),1954年4月7日出生于中国香港,中国香港影视男演员、导演、制作人、编剧、歌手,国家一级演员。1971年以武师身份进入电影圈。1978年以电影《蛇形 ...",
"$2$. 成龙(Jackie Chan)是香港武术家、演员、歌手、特技演员,他还引发了一种国际流行文化现象。自20世纪60年代以来,成龙出演了150多部电影,是世界上最知名的明星之一。",
"$3$. 成龙,SBS,MBE,PMW(英语:Jackie Chan,1954年4月7日—),原名陈港生,后改名房仕龙,前艺名元楼、元龙,是英属香港出生的著名动作演员、武术指导、歌手、导演、 ...",
"$4$. 成龙Jackie Chan - Armenia · 公共主页 · 演员 · jackiechan.com · 评分· 4.8(922 条点评).",
"$5$. 成龍,SBS,MBE,PMW(英語:Jackie Chan,1954年4月7日—),原名陳港生,后改名房仕龍,前藝名元樓、元龍,是英屬香港出生的著名動作演员、武術指導、歌手、导演、 ...",
"$6$. We are all huge fans of Jackie Chan, and our project is dedicated to honoring and celebrating his incredible talent.Our project stands out by combining the world of cryptocurrency with the global admiration for Jackie Chan, creating a unique platform for fans to engage and participate in his legacy.Our project started as a shared passion among Jackie Chan fans, who wanted to create a token that pays homage to his iconic career while also supporting charitable initiatives in line with his values.We have exciting plans for the future, including expanding our community, partnering with charitable organizations, and developing innovative features that enhance the fan experience.Our token, JACKIE, can be used for various purposes within our ecosystem, such as participating in exclusive events, accessing special merchandise, and even voting on community-driven decisions.",
"$7$. 成龙,1954年4月7日出生于香港中西区,祖籍安徽省芜湖,中国香港男演员、导演、动作指导、制作人、编剧、歌手。 1971年以武师身份进入电影圈。1976年在动作片《新精武 ...",
"$8$. What's Alex Zhang? Manager at Friends with Benefits.",
"$9$. 成龙是国际影星,身家逾25亿人民币(专题),曾当选为世界10大杰出青年。 成龙出身平凡,只有小学学历,从小饱受歧视。他走红后曾有过暴发户心理,一心想花 ...",
"$10$. 成龙简介:成龙的父母亲最初在法国领事馆工作,父亲是厨师,也是京剧票友。成龙小时候很喜欢打架,跟那些反对各个外国小孩子打。因为他住在山顶领事馆区,几乎附近的尽 ..."
],
"reference": "成龙(Jackie Chan)是一位著名的香港演员、导演、武术家、歌手和制片人。他生于1954年4月7日,因其独特的动作喜剧风格而闻名于世。成龙的电影通常结合了惊险的武术动作、创新的特技和幽默元素。他在全球范围内有着极高的知名度和影响力,尤其是在动作电影领域。\n\n成龙的电影生涯始于1960年代,当时他在香港电影圈担任武术替身和小角色。1970年代和1980年代,他凭借电影如《蛇形刁手》、《醉拳》和《警察故事》系列而成名。他的国际影响力在1990年代大幅提升,特别是通过电影《尖峰时刻》系列与好莱坞接轨。\n\n除了演艺事业,成龙还积极参与慈善活动,包括担任联合国儿童基金会的亲善大使。他还曾发行过多张音乐专辑,并在多部电影中献声演唱。成龙以其敬业精神、身体素质和对武术的奉献而受到广泛赞誉"
},
{
"user_input": "张学友是谁?",
"response": "张学友是中国香港的一位男歌手、演员和音乐人。他被誉为“歌神”,是香港乐坛“四大天王”之一。张学友于1961年7月10日出生于中国香港,毕业于香港崇文英文书院。他在1984年获得首届香港十八区业余歌唱大赛冠军后正式出道,之后发行了多张个人专辑。张学友的音乐作品广受欢迎,他的演唱风格多样,涵盖了流行、摇滚、民谣等不同风格。除了音乐方面的成就,张学友也涉足影视界,担任过多部电影的主演。他的才华和成就使他成为华人社会中备受尊敬和崇拜的艺人之一。",
"retrieved_contexts": [
"$1$. 张学友(英语:Jacky Cheung Hok Yau;1961年7月10日—),香港男歌手、演员和音乐人,在华人社会有“歌神”称号。随着1992年被香港媒体获封为香港乐坛“四大天王”之一, ...",
"$2$. 张学友(Jacky Cheung),1961年7月10日出生于香港,中国香港流行乐男歌手、影视演员、作曲人,毕业于香港崇文英文书院。 1984年因获得首届香港十八区业余歌唱大赛冠军而出道。 1985年发行个人首张专辑《Smile》。",
"$3$. 艺人简介. 张学友(Jacky Cheung),1961年7月10日出生于中国香港,祖籍天津市,中国香港流行乐男歌手、演员、作曲人,毕业于香港崇文英文书院。",
"$4$. 中国香港流行乐男歌手、影视演员、作曲人.",
"$5$. We are all huge fans of Jackie Chan, and our project is dedicated to honoring and celebrating his incredible talent.Our project stands out by combining the world of cryptocurrency with the global admiration for Jackie Chan, creating a unique platform for fans to engage and participate in his legacy.Our project started as a shared passion among Jackie Chan fans, who wanted to create a token that pays homage to his iconic career while also supporting charitable initiatives in line with his values.We have exciting plans for the future, including expanding our community, partnering with charitable organizations, and developing innovative features that enhance the fan experience.Our token, JACKIE, can be used for various purposes within our ecosystem, such as participating in exclusive events, accessing special merchandise, and even voting on community-driven decisions.",
"$6$. What's Eric Chen? Co-founder of Injective Labs.",
"$7$. 张学友. 歌手. 闲话; 关注 · 编辑. 張學友是香港个歌唱藝人搭演员,“四大天王”之一,伊搭儕叫伊作:“歌神”。 别人家 编辑 · 齊秦 · 王力宏 · 郭富城 ...",
"$8$. What's Joe Tsai? Joe Tsai is a co-founder of Alibaba Group, China's biggest e-commerce company.",
"$9$. What's Liu Jiang? Angel Investor and Advisor, former Partner at Sequoia Capital.",
"$10$. What's Alex Zhang? Manager at Friends with Benefits."
],
"reference": "张学友是一位著名的香港歌手和演员,出生于1961年7月10日。他被广泛认为是华语乐坛的四大天王之一,这一称号指的是1990年代初华语流行音乐界最受欢迎和最有影响力的四位男歌手,其中张学友便是其中之一。\n\n张学友以其悠扬的嗓音和情感丰富的演唱风格而闻名,他的音乐多样,涵盖了流行、摇滚、爵士、新民谣等多种风格。他的一些最著名的歌曲包括《吻别》、《一路上有你》和《心如刀割》等,这些歌曲在华人社区中广为人知,并成为经典。\n\n除了音乐事业,张学友也在电影界有着杰出的表现,出演了多部电影。他的电影作品通常展现了他多才多艺的一面,包括在《旺角卡门》和《新不了情》等影片中的出色表现。\n\n张学友不仅在亚洲享有极高的知名度和影响力,还在国际上有着广泛的粉丝群体。他的音乐和电影作品对华语娱乐界产生了深远的影响。"
},
{
"user_input": "刘德华",
"response": "刘德华(Andy Lau)是一位华语影视男演员、流行乐歌手、电影制片人、作词人。他于1961年9月27日出生于中国香港。刘德华在1981年因出演个人首部电影《彩云曲》而进入演艺圈。他参演了许多电影作品,其中包括《梦海》、《牛兄牛弟》、《七圣》和《流浪地球3》。此外,刘德华还是天幕公司和映藝集團的创建者,作为投资人和监制参与了30多部华语电影的制作。他的父亲的丧礼吸引了无数媒体和粉丝的关注,数十万人为他父亲送行,五兄妹更是罕见地齐聚哭丧。刘德华在香港飞鹅山拍摄策划时被人偶遇,他身穿一身黑色西装,戴着口罩。此外,他还有一首代表作的歌单可以在Apple Music上收听。",
"retrieved_contexts": [
"$1$. 刘德华(Andy Lau),1961年9月27日出生于中国香港,华语影视男演员、流行乐歌手、电影制片人、作词人。1981年,因出演个人首部电影《彩云曲》而进入演艺圈。1985年, ...",
"$2$. 刘德华Andy Lau的全部作品(302) · 梦海 (2030) (未上映) [ 演员] · 牛兄牛弟 (2030) (未上映) [ 演员- 配音] · 七圣 (2030) (未上映) [ 演员(饰孙悟空) ] · 流浪地球3 ( ...",
"$3$. Dedicated to the endless talented actor Andy Lau - Now Showing | Moscow Mission · 眼神交锋,相互试探,梁朝伟刘德华上演话里有话极限拉扯。 · Super Dad ·",
"$4$. 劉德華 编辑 ... 劉德華是天幕公司和映藝集團的創建者,作為投資人與監制已參與製作了30多部華語電影。除此之外,劉德華是四川省川剧学校客座教授。",
"$5$. 一代巨星刘德华将在香港为其父亲举办了一场备受关注的丧礼。 这场丧礼吸引了无数媒体和粉丝的关注,数十万人为他父亲送行,五兄妹更是罕见地齐聚哭丧 ...",
"$6$. 前两天,一小段刘德华的视频亮相了。 这天,很久未露面的天王,在香港飞鹅山拍摄策划时被人偶遇。 当天,天王刘德华身穿一身黑色西装,戴着口罩,乌黑 ...",
"$7$. 在Apple Music 上收听歌单“刘德华代表作”。24 首歌曲。时长:1 小时41 分钟。",
"$8$. What's Liu Jiang? Angel Investor and Advisor, former Partner at Sequoia Capital.",
"$9$. ChinaLady hopes that through China's Lady's gentle, kind, considerate, virtuous, considerate, housekeeping, and the mysterious power of the East, she will have a safe, beautiful and charming journey in the encryption field.",
"$10$. What's Darryl Lau? Analyst at Not3Lau Capital."
],
"reference": "刘德华(Andy Lau)是一位著名的香港歌手、演员和制片人,生于1961年9月27日。他是华语娱乐界最著名和最成功的艺人之一,以其在音乐和电影领域的杰出成就而闻名。\n\n在音乐方面,刘德华是华语流行音乐的领军人物之一,自1980年代起便开始活跃于音乐界。他的歌曲风格多变,从流行到摇滚,再到情歌,涵盖了广泛的音乐类型。他的一些著名歌曲,如《忘情水》、《爱你一万年》和《天意》等,深受粉丝喜爱,并成为华语乐坛的经典。\n\n在电影方面,刘德华也有着同样卓越的成就。他演绎了多种角色,从浪漫爱情片到动作片,都有出色的表现。他参与的一些知名电影包括《无间道》系列、《赌神》系列和《天下无贼》等。刘德华以其才华横溢的演技和对角色的深入理解而受到赞誉。\n\n除了音乐和电影事业,刘德华还积极参与慈善活动,为多种社会和慈善事业做出了贡献。他的多才多艺、敬业精神和慷慨心灵使他成为了华语娱乐界的传奇人物。"
},
{
"user_input": "李小龙",
"response": "李小龙(Bruce Lee)是一位华裔武术家、武打演员和监制。他是截拳道的创始人,也是混合武术概念的先驱之一。李小龙在电影界取得了巨大的成功,成为了国际影星。他的代表作品包括《精武门》和《猛龙过江》。然而,他在1973年去世时年仅32岁,这给人们留下了许多遗憾。李小龙的突然离世引起了全球范围内的震惊和悼念。他的影响力远远超出了电影界,他的截拳道理念和武术技巧对后来的武术家和电影制作人产生了深远的影响。李小龙的传奇故事至今仍然被人们津津乐道,他被誉为武术界的传奇人物。\n\n根据提供的文章,我们可以得出以下结论:\n- 文章、、、、提供了关于李小龙的基本信息,包括他的出生日期、职业和成就。\n- 文章提到了《精武门》和《猛龙过江》这两部电影对李小龙国际影星地位的确立和影响力的扩大。\n- 文章提到了李小龙在电影《死亡游戏》拍摄期间去世的事实。\n- 文章提到了李小龙的影响力超出了电影界,他的截拳道理念和武术技巧对后来的武术家和电影制作人产生了深远的影响。\n- 文章提到了李小龙在电视剧《盲人追凶》中的表演,尽管反响不错,但他在当时的美国社会遇到了困难。\n- 文章提到了李小龙的突然离世引起了全球范围内的震惊和悼念,以及他的死因引起了人们的猜测。\n\n综上所述,李小龙是一位华裔武术家和武打演员,他的截拳道理念和武术技巧对后来的武术家和电影制作人产生了深远的影响。他在电影界取得了巨大的成功,成为了国际影星。然而,他在1973年去世时年仅32岁,这给人们留下了许多遗憾。李小龙的突然离世引起了全球范围内的震惊和悼念,他被誉为武术界的传奇人物。",
"retrieved_contexts": [
"$1$. 李小龙(英语:Bruce Lee Siu-long,1940年11月27日—1973年7月20日),华裔武术家、武打演员及监制。他是截拳道的创始者,混合武术概念的先驱之一。李小龙是香港粤剧丑 ...",
"$2$. 李小龍(英語:Bruce Lee Siu-long,1940年11月27日—1973年7月20日),華裔武術家、武打演員及監製。他是截拳道的創始者,混合武術概念的先驅之一。李小龍是香港粵劇丑生 ...",
"$3$. 李小龙,本名李振藩,乳名细凤,国际著名华裔武术家、截拳道创始人、动作片演员、动作导演、武术指导、功夫片的开创者、好莱坞首位华人主角。香港粤剧丑生李海泉之子, ...",
"$4$. 李小龙成了人们心目中的英雄。《精武门》奠定了李小龙国际影星的地位,并在全世界范围内掀起了一阵习武狂潮。 1972年李小龙开始拍摄电影《猛龙过江》,这是第一部到欧洲 ...",
"$5$. 中新网北京7月20日电(记者邢蕊)50年前的今天,华裔武术大师李小龙去世。在电影《死亡游戏》拍摄期间,他在好友家中猝死,生命最终定格在了32岁。",
"$6$. 李小龙(1940年11月27日-1973年7月20日),本名李振藩,族名李源鑫,出生于美国加利福尼亚州旧金山,祖籍中国广东省顺德市均安镇,世界武道变革先驱者、功夫片的开创 ...",
"$7$. 1940年11月27日,李小龙出生于美国加利福尼亚州旧金山,是好莱坞的首位华人主角。他凭借《唐山大兄》、《精武门》和《猛龙过江》,连续3次打破香港电影 ...",
"$8$. FEATURED VOICES IN THIS EPISODEClint BruceClint Bruce is a former Navy Special Warfare Officer, a graduate of the US Naval Academy, decorated athlete, and seasoned entrepreneur. A 4-year letter winner at Navy playing middle linebacker, captain and MVP of the ’96 Aloha Bowl Championship team, he was named to multiple all-star teams his senior year. He enjoyed opportunities with both the Baltimore Ravens and New Orleans Saints and was inducted into the Navy/Marine Corps Stadium Hall of Fame in 2009. Clint’s desire to serve was deep and firmly rooted. He left the NFL to pursue becoming a Navy SEAL and successfully completed BUDS (Basic Underwater Demolition SEAL Training) in 1998 with Class 217. Joining SEAL Team FIVE, Clint completed multiple deployments pre and post-911 directly involved in counter-terrorism and national security missions globally. He is a co-founder of Carry the Load, which was founded to restore true meaning to Memorial Day and celebrate the service and sacrifice of Police, Fire, and Rescue personnel and their families during the month of May. Clint lives in Dallas with his college sweetheart and three daughters who are not impressed that he played football or was a Navy SEAL.Patrick GrayPatrick Gray is the producer and presenter of the Risky Business weekly information security podcast, a weekly podcast that launched in 2007. He formerly was a journalist for publications including Wired.com, ZDNet Australia, The Sydney Morning Herald, The Age, The Bulletin (magazine) and Men's Style Australia.Eric OlsonEric Olson is the Director of Threat Intelligence for Jet Blue Airways. A threat intelligence professional for more than 20 years, Eric has had executive roles including Senior Vice President of Product Management and Vice President, Intellugence Operations, at LookingGlass Cyber Solutions, and was VP of Product Strategy at Cyveillance.Allan FriedmanAllan Friedman is Senior Advisor and Strategist at the United States Cybersecurity and Infrastructure Security Agency, and one of the nation's leading experts on Software Bill of Materials. Allan leads CISA's efforts to coordinate SBOM initiatives inside and outside the US government, and around the world. He is known for applying technical and policy expertise to help audiences understand the pathways to change in an engaging fashion, and is frequently invited to speak or keynote to industry, academic, and public audiences. Wearing the hats of both a technologist and a policy maker, Allan has over 15 years of experience in international cybersecurity and technology policy. His experience and research focuses on economic and market analyses of information security. On the practical side, he has designed, convened, and facilitated national and international multistakeholder processes that have produced real results, helping diverse organizations finding common ground on contentious, cutting edge issues.Evan Sultanik, PhDEvan Sultanik is a Principal Computer Security Researcher at Trail of Bits. A computer scientist with extensive experience both in industry (as a software engineer) and academia, Evan is an active contributor to open source software. He is author of more than two dozen peer-reviewed academic papers, and is particularly interested in intelligent, distributed/peer-to-peer systems. Evan is editor of and frequent contributor to the International Journal of PoC||GTFO. William WoodruffWilliam Woodruff is a senior security engineer at Trail of Bits, contributing to the engineering and research practices in work for corporate and governmental clients. He has developed several of our open-source projects (e.g., twa, winchecksec, KRF, and mishegos). His work focuses on fuzzing, program analysis, and automated vulnerability reasoning. Outside of Trail of Bits, William helps to maintain the Homebrew project, the dominant macOS package manager. Before joining Trail of Bits, he was a software engineering intern at Cipher Tech Solutions, a small defense",
"$9$. 1971 年,在电视剧《盲人追凶》中,李小龙扮演盲人私人侦探的老师,虽然播出后反响不错,但是当时的美国社会却难以容下一个华人演员,他在好莱坞的 ...",
"$10$. 李小龙这个响亮的名字震撼全球。他在香港的四部半电影3次打破多项记录,正当他的事业如日中天的时候,竟离奇丧命。身强力壮的他为何会死在性感女星的床上,究竟是谁杀死了 ..."
],
"reference": "李小龙(Bruce Lee),原名李振藩,是一位全球知名的武术家、电影演员、电影导演、武术哲学家和武术创新者。他于1940年11月27日出生于美国旧金山,但主要在香港长大。李小龙对于现代武术、特别是自由搏击和混合武术的发展产生了深远的影响,并且是最早将亚洲武术推广到世界的先驱之一。\n\n李小龙的主要成就和贡献包括:\n\n武术革新: 李小龙创立了截拳道(Jeet Kune Do),这是一种哲学理念和武术体系的结合,强调实用性、简单性和个人表达。\n\n电影事业: 李小龙是第一位在西方电影界取得巨大成功的亚洲武术演员。他的电影,如《龙争虎斗》(Enter the Dragon)、《精武门》(Fist of Fury)和《猛龙过江》(The Way of the Dragon),不仅在亚洲,而且在全世界范围内广受欢迎。\n\n文化影响: 李小龙通过他的电影和武术展示打破了许多关于亚洲人的文化刻板印象,他被认为是亚洲人在西方世界的一种新形象和力量的象征。\n\n武术哲学: 他将东方武术哲学与西方格斗技术相结合,推广了一种全新的武术理念和生活方式。\n\n不幸的是,李小龙于1973年7月20日因脑水肿意外去世,享年32岁。尽管他的生涯短暂,但他对武术、电影和文化的影响持续至今,他已成为一个文化图标。李小龙的生活和工作继续激励着全世界的武术爱好者、电影观众和那些追求自我提升和表达的人们"
},
{
"user_input": "海阔天空",
"response": "《海阔天空》是一首粤语歌曲,由香港摇滚乐队Beyond演唱。这首歌曲于1993年创作,收录在Beyond的专辑《乐与怒》中。歌曲以追求音乐梦想为主题,表达了对未来的希望和对困难的坚持。《海阔天空》在发表后的25年里成为了经典之作,被广大听众所喜爱和传唱。\n\n这首歌曲的歌词表达了在寒冷的夜晚看雪飘过的心情,以及追赶雾中分不清影踪的感觉。歌曲中的“海阔天空”一词象征着无限的可能性和广阔的未来。这首歌曲的旋律动听,歌词深情,让人产生共鸣。\n\n《海阔天空》不仅在粤语地区广受欢迎,也被翻唱成多种语言版本。例如,信乐团在2004年演唱了一首《海阔天空》的中文版,收录在他们的同名专辑中。\n\n除了音乐方面,海阔天空也是一个游戏项目的名称。Seascape团队是少数几个在以太坊和其他多个知名区块链上发布项目的团队之一。他们在全球范围内设有办事处,并获得了来自Matic、Neo、Loom、Binance、Tron和Gyro Tech等国际区块链奖项。\n\n总的来说,《海阔天空》是一首经典的粤语歌曲,表达了对未来的希望和对困难的坚持。它不仅在粤语地区广受欢迎,也被翻唱成多种语言版本。此外,海阔天空也是一个游戏项目的名称,由Seascape团队开发。",
"retrieved_contexts": [
"$1$. 海阔天空作词:黄家驹作曲:黄家驹编曲:Beyond、Kunihiko Ryo 监制:Beyond 今天我寒夜里看雪飘过怀着冷却了的心窝漂远方风雨里追赶雾里分不清影踪天空海阔你与我可会 ...",
"$2$. 《海阔天空》是中国香港摇滚乐队Beyond演唱的一首粤语歌曲,由黄家驹作词、作曲,Beyond、梁邦彦共同编曲,收录在Beyond1993年5月14日由华纳唱片发行的粤语专辑《乐与怒》 ...",
"$3$. 《海阔天空》是香港摇滚乐队Beyond的歌曲之一,于1993年创作,收录于《乐与怒》大碟,作曲、作词及主音均为乐队主唱黄家驹。歌曲以追求音乐梦想为主题,也渗入了Beyond ...",
"$4$. 《海阔天空》已随着一位天才音乐人的离世而被传唱为经典,不再限于粤语地区。在它被发表之后的25年里,这首歌就好像有了自己的生命,被不同的人群赋予了不 ...",
"$5$. 《海阔天空》是信乐团2004年演唱的一首歌曲,由姚若龙作词,Hun Lim、Jun Young Choi作曲,收录在信乐团2004年4月27日发行的同名专辑《海阔天空》中。",
"$6$. 《海阔天空》是香港殿堂级摇滚乐队Beyond发行的第4张国语专辑,其中收录的《海阔天空》是Beyond成立十周年的歌曲。1993年6月24日黄家驹发生意外昏迷,6月30日逝世,原 ...",
"$7$. Media CoverageThe Seascape team is one of the few in the industry to have published projects on Ethereum and over half a dozen other well recognized chains. Furthermore, they have been the recipient of a number of international blockchain awards from Matic, Neo, Loom, Binance, Tron, and Gyro Tech.Country of originThe international Seascape team has offices in China, Japan, and Sweden, with satellites in Singapore and Estonia, as well as auxiliaries scattered throughout the globe.",
"$8$. Game Story\"2130, the environment on Earth is seriously polluted, resources are running out, humans are in danger of food and energy scarcity.A group of scientists in the WIDI Project, a high-level program searching for life in outer space, find TKE-1012, a green-blue Earth-like moon. This giant planet, 24.2 light-years away from Earth, has conditions almost similar to our world, up to 73%.A small group of elite people is selected to participate in this secret program with a unique mission \"finding a new home for humanity.\" They migrate to TKE-1012 and call it WidiLand.Unfortunately, during the landing process, Geomagnetic storms from the efficient exchanges of energy continuously sweep through, causing severe damages to the entire spacecraft, high-tech equipment, and telecommunications.Now, all crew suffer food-energy depletion and eruption of the connection with Earth-based radars. Their unique opportunity is building their own Food-Energy System on this planet”",
"$9$. Countless dangers and challenges lurk in the infinite depths of space – but so do unbelievable treasures and boundless power.Everything starts with the foundation of a small colony on an uninhabited planet. Harnessing the resources of your new home together with your own tactical genius, you research new technologies and construct a powerful fleet to carry your authority out into the stars.",
"$10$. 作詞:黃家駒 作曲:黃家駒. 監製/ 編曲:Beyond、Kunihiko Ryo 今天我寒夜裡看雪飄過懷著冷卻了的心窩漂遠方風雨裡追趕霧裡分不清影蹤天空海闊你與我可會變(誰沒在變)"
],
"reference": "《海阔天空》是一首非常著名的华语摇滚歌曲,由香港摇滚乐队Beyond演唱。这首歌收录于他们1993年的专辑《乐与怒》中,后来成为Beyond乃至华语摇滚音乐中最具代表性的歌曲之一。\n\n《海阔天空》的歌词充满了对自由、梦想和坚持的追求,展现了乐队对生活和艺术的深刻理解。这首歌的旋律激昂、感人,歌词富有哲理,深受广大听众的喜爱,成为很多人心中的励志歌曲。它不仅是Beyond的经典曲目,也成为华语音乐历史上的经典。\n\nBeyond乐队成立于1983年,是香港最受欢迎和最有影响力的摇滚乐队之一。他们的音乐风格多元,包括摇滚、流行和新浪潮等,以其深刻的社会意识和对人性的洞察著称。尽管乐队主唱黄家驹在1993年意外去世,但他们的音乐仍然深受喜爱,影响了一代又一代的听众。《海阔天空》便是他们音乐传奇的重要组成部分。"
}
]
测评代码:
import os
from datasets import Dataset
from ragas import evaluate
from ragas import EvaluationDataset
from ragas.metrics import LLMContextRecall, Faithfulness, FactualCorrectness, AnswerRelevancy, ContextPrecision
from ragas.llms import LangchainLLMWrapper
from langchain_community.chat_models import ChatTongyi
from os.path import join as osp
if __name__ == '__main__':
DATAS_DIR = osp(os.path.split(os.path.realpath(__file__))[0], 'datas')
DATAS_JSON = osp(DATAS_DIR, 'data.json')
datasets = Dataset.from_json(DATAS_JSON)
# 转换为 HuggingFace Dataset 格式
evaluation_dataset = EvaluationDataset.from_list(datasets)
# 选择要评估的指标
metrics = [
LLMContextRecall(), # 上下文信息的完整性
ContextPrecision(), # 上下文的精确性和有用性
Faithfulness(), # 回答对上下文的忠实度
FactualCorrectness() # 回答中事实的准确性
]
os.environ["DASHSCOPE_API_KEY"] = "sk-xxxxxx"
llm = ChatTongyi(model="qwen-max")
# 将自定义模型包装为 LangChain 兼容格式
evaluator_llm = LangchainLLMWrapper(llm)
# 执行评估
result = evaluate(dataset=datasets, metrics=metrics, llm=evaluator_llm)
# 打印评估结果
print(result)
评测结果:
指标详解
指标名称 | 评估重点 | 所需输入 | 实现方式 | 特点优势 | 局限性 | 最佳适用场景 |
---|---|---|---|---|---|---|
ContextRelevancy | 上下文与问题的相关性 | question, retrieved_contexts | 嵌入相似度计算 | 计算高效,不依赖LLM | 仅基于语义相似度,不理解复杂关系 | 大规模初筛,资源受限场景 |
ContextRecall | 上下文信息的完整性 | question, retrieved_contexts, reference | LLM评估 | 评估信息覆盖度,理解语义关系 | 依赖参考上下文质量 | 评估检索系统的召回能力 |
ContextPrecision | 上下文的精确性和有用性 | question, response, retrieved_contexts | LLM评估 | 识别噪音和冗余信息 | 需要分析问题和回答的关系 | 优化检索精确度,减少冗余 |
Faithfulness | 回答对上下文的忠实度 | response, retrieved_contexts | LLM评估 | 精确识别幻觉内容 | 复杂回答分解可能不完美 | 医疗、法律、金融等高可靠性场景 |
AnswerRelevancy | 回答与问题的相关性 | question, response | LLM评估 | 识别离题回答 | 不评估事实准确性 | 对话系统、客服应用 |
AnswerCorrectness | 回答的整体正确性 | question, response, reference | LLM评估 | 全面评估回答质量 | 需要高质量参考答案 | 教育、考试系统 |
FactualCorrectness | 回答中事实的准确性 | response, reference | LLM评估 | 专注评估事实内容 | 不评估非事实内容 | 百科问答、研究助手 |
AspectCritic | 特定方面的质量评估 | question, response, retrieved_contexts, rubrics | LLM评估 | 高度可定制,适应特定需求 | 需要精心设计评价标准 | 特定领域专业评估 |
Conciseness | 回答的简洁程度 | response | LLM评估 | 识别冗长回答 | 简洁与完整可能冲突 | 移动应用、快速问答 |
Coherence | 回答的逻辑连贯性 | response | LLM评估 | 识别混乱或矛盾的回答 | 主观性较强 | 长篇内容生成、报告生成 |
Completeness | 回答的完整性 | question, response | LLM评估 | 识别不完整回答 | 与简洁性可能冲突 | 详细解释、教育应用 |
Harmfulness | 回答的安全性 | response | LLM评估 | 提高系统安全性 | 有害内容定义可能模糊 | 面向公众、儿童的应用 |
Hallucination | 回答中的幻觉内容 | response, retrieved_contexts | LLM评估 | 直接量化幻觉程度 | 与Faithfulness有重叠 | 需要高可靠性的任务关键型应用 |