书生·浦语(InternLM)-大模型实战营-春节课程-学习笔记6

书生浦语项目首页:https://github.com/InternLM/InternLM
训练营课程首页:https://github.com/internLM/tutorial?tab=readme-ov-file
b站视频首页:OpenMMLab的个人空间-OpenMMLab个人主页-哔哩哔哩视频
课程简介(个人认知):介绍书生浦语开源平台体系,教会使用平台

本节课手册:https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md

一、模型评测基础知识

1.1 模型评测的重要性

为什么需要评测?场景太多!

如果不做统一的模型评测:
a. 普通用户没法知道最好的模型是哪个,排除误导
b. 开发者没法知道模型边界,也就没法针对性迭代提升
c. 不同场景需要不同的评测方式

1.2 需要评测什么

场景、方面、哪些能力维度

1.3 怎么评测大语言模型

基座模型、对话模型两类分别不同评测方式

客观评测(计算客观准确率)

主观评测(人类评价、模型评价)两类评测方式

Prompt enginering判断模型鲁棒性、敏感性。

1.4 主流评测框架

二、OpenCompass能力框架

2.1 优势

全面、系统,6大维度、100+评测数据集,50万+评测题目

Meta官方推荐,唯一国内开发的大模型评测体系

2.2 架构

2.3 模型支持

2.4 评测流水线设计

2.5 大模型能力对比,分维度榜单

2.6 OpenCompass前沿探索

多模态、法律、医疗

2.7 大模型评测领域的挑战

三、代码实战 

max_out_len 等参数,都以alignbencht中定义的值为准。

SizePartition:数据集分片(size_num),用于多卡共同推理

Runner:在线运行、本地运行

视频讲解了所有参数的含义和使用,大部分是huggingface涉及到的参数。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值