普通用户: 了解诶模型的特色能力和实际效果
开发者:监控模型能力变化,指导优化模型生产
管理机构:减少大模型带来的社会风险
产业界:找出最适合产业应用的模型,赋能真是场景
客观评测
主观评测
提示词工程:问题的不同问法
主流大模型评测框架
OpenCompass能力框架
Meta官方推荐
平台架构
100+数据集
任意模型
任务切分
多种输出方案
前沿探索MMBench
垂直领域 法律 医疗
挑战
普通用户: 了解诶模型的特色能力和实际效果
开发者:监控模型能力变化,指导优化模型生产
管理机构:减少大模型带来的社会风险
产业界:找出最适合产业应用的模型,赋能真是场景
客观评测
主观评测
提示词工程:问题的不同问法
主流大模型评测框架
OpenCompass能力框架
Meta官方推荐
平台架构
100+数据集
任意模型
任务切分
多种输出方案
前沿探索MMBench
垂直领域 法律 医疗
挑战