司南OpenCompass
码龄111天
关注
提问 私信
  • 博客:21,212
    21,212
    总访问量
  • 19
    原创
  • 46,255
    排名
  • 345
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2024-07-26
博客简介:

OpenCompass的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    2
    当前总分
    165
    当月
    1
个人成就
  • 获得427次点赞
  • 内容获得0次评论
  • 获得318次收藏
创作历程
  • 19篇
    2024年
成就勋章
TA的专栏
  • 模型评测
    4篇
  • 大语言模型
    9篇
  • 大模型评测体系
    11篇
  • Llama 3
    3篇
  • llama
    1篇
  • 大模型对战
    1篇
  • 榜单
    1篇
  • 评测数据集
    3篇
  • 数据集
    2篇
  • 医疗
    1篇
  • Flames
    1篇
  • Ada-Eval
    1篇
  • 长文本评测集
    1篇
  • T-Eval评测基准
    1篇
  • ACL
    1篇
兴趣领域 设置
  • Python
    python
  • 人工智能
    opencv人工智能深度学习神经网络自然语言处理知识图谱语言模型YOLO
  • 开源
    github
  • AIGC
    chatgptgpt
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

还在GPT-4o进行评测么?快来试试开源评价大模型CompassJudger

在进行主观评测的过程中,通常需要一个 Judge Model 来对待测模型的回复进行评分或比较,从而代替人类来进行这一评价工作,得到待测模型在各类主观题上的得分。过去,这往往是由能力较强的闭源模型如 GPT4 来进行的,GPT4 也因此成为了在 AlignBench,AlpacaEval,ArenaHard 等数据集上的标准评测模型。然而,在科学研究和模型迭代的过程中,往往需要进行大规模的评测,而使用闭源模型的成本非常高昂。
原创
发布博客 2024.10.23 ·
601 阅读 ·
28 点赞 ·
0 评论 ·
17 收藏

CaLM 因果推理评测体系:如何让大模型更贴近人类认知水平?

因果发现旨在从数据或语义中推测出潜在的因果结构,关联探索数据间的统计依赖关系,干预预测有意改变环境中的变量所带来的影响,以及反事实则对假设的替代场景进行推理。针对模型、提示词以及因果场景,CaLM 中分别设置了不同的评估标准,覆盖包括准确率、鲁棒性、理解度等 7 种,全面反映模型的因果推理能力和鲁棒性、提示词有效性。司南 OpenCompass 大模型能力评测体系将持续与业界共同推进大模型在因果推理领域的评估工作,携手构建一个开放、公平、透明的大语言模型评估体系,促进大语言模型技术的健康发展和持续创新。
原创
发布博客 2024.09.24 ·
883 阅读 ·
7 点赞 ·
0 评论 ·
27 收藏

司南 OpenCompass 九月大语言模型评测榜单启动召集,欢迎新合作厂商申请评测

司南 OpenCompass 大语言模型官方自建评测榜单,综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随、智能体七大能力维度,这七个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试、高等数学、通用工具调用等十余项细分任务,力图对行业开源模型和商业 API 模型进行全面评测分析。,面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。
原创
发布博客 2024.09.20 ·
1020 阅读 ·
11 点赞 ·
0 评论 ·
7 收藏

两行代码开启大模型评测之旅!OpenCompass 工具版本全面更新,快来试试看

作为 OpenCompass 司南大模型评测体系三大核心模块之一的评测工具链体系 CompassKit 近日迎来,更新内容主要集中在 OpenCompass 大语言模型评测工具,本文介绍了新功能的使用方法。
原创
发布博客 2024.09.03 ·
1071 阅读 ·
9 点赞 ·
0 评论 ·
25 收藏

Compass Arena 上新啦!新增双多模态模型匿名对战

2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队 与魔搭 ModelScope 联合推出了大模型评测平台——Compass Arena(大模型竞技场),为国内的大语言模型领域引入了一种全新的竞技模式。今天,Compass Arena 迎来重磅更新,新增了多模态大模型竞技版块——Compass Multi-Modal Arena。在这个全新的竞技场,用户可以轻松体验和比较多款主流多模态大模型的效果,找到适合自己的。
原创
发布博客 2024.08.09 ·
1065 阅读 ·
30 点赞 ·
0 评论 ·
18 收藏

多模态模型评测神器 | OpenCompass MMBench 了解一下!

MMBench 是 OpenCompass 研究团队自建的视觉语言模型评测数据集,可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约 3000 道单项选择题 ,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度。
原创
发布博客 2024.08.06 ·
1725 阅读 ·
27 点赞 ·
0 评论 ·
5 收藏

性能不行,尺寸来凑?马斯克的 Grok-1 究竟价值几何?

过去一年多以来,人工智能的发展开启了狂暴模式,真可谓。Mistral和Claude连发大招之后,马斯克的xAI也搞出了“大动作”!马斯克曾提出建立“第三方裁判”监督 AI 公司,并推出 xAI 项目为了打造能加速人类科技发展的人工智能,还对 OpenAI 发起起诉,指责其背离了初心,甚至表示如果 OpenAI 改名 ClosedAI 就撤诉。3月11日,马斯克宣称 xAI 将对其开发的 AI 对话机器人 Grok 进行开源!
原创
发布博客 2024.08.06 ·
881 阅读 ·
29 点赞 ·
0 评论 ·
15 收藏

千呼万唤始出来,Meta凌晨开源Llama3

Meta于北京时间4月19日凌晨开源了Llama-3,距Llama-2开源正好9个月。一起看看这次Meta到底放了什么干货。
原创
发布博客 2024.08.05 ·
886 阅读 ·
25 点赞 ·
0 评论 ·
16 收藏

深度探索:LLaMa-3网络安全能力全解析

随着人工智能技术的迅速发展,大模型在处理各种复杂任务中展示出了卓越的能力。特别是在网络安全领域,大模型的应用潜力巨大,它们可以帮助自动化处理大量数据、识别潜在威胁和提供安全建议。然而,新型大模型层出不穷,要有效利用这些模型,首先必须验证它们在理解和处理网络安全相关问题上的能力。
原创
发布博客 2024.08.05 ·
1302 阅读 ·
25 点赞 ·
0 评论 ·
16 收藏

Compass Arena 大语言模型对战榜单新一轮更新来啦!

CompassArena自榜单首次上线以来,收到了更多用户的反馈和真实体验数据。今天,大模型对战迎来了新一轮更新,同时新增了子榜单功能,快来看看吧!
原创
发布博客 2024.08.02 ·
538 阅读 ·
13 点赞 ·
0 评论 ·
8 收藏

实战解读:Llama3 安全性对抗分析

近日,腾讯朱雀实验室、科恩实验室和上海人工智能实验室 司南 OpenCompass 大模型评测团队 针对Llama 3 安全性做了进一步解读。
原创
发布博客 2024.08.02 ·
1208 阅读 ·
22 点赞 ·
0 评论 ·
25 收藏

司南 OpenCompass 5 月榜单揭晓,全新大模型对战榜单首次登场

司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现已公布 2024 年 5 月大语言模型最新评测榜单!与此同时,CompassArena 大模型对战榜单 也于今日首次重磅上线!
原创
发布博客 2024.07.31 ·
1309 阅读 ·
32 点赞 ·
0 评论 ·
26 收藏

GPT-4o的数学又双叕进步了?来MathBench看看新版GPT-4o到底强在哪

数学推理和问题解决是人类智力的重要方面,几十年来也一直是人工智能(AI)领域研究的重点以及大模型的兵家必争之地。机器对数学问题的理解、解释和解决能力不仅是其认知能力的标杆,还在其各个领域的应用中发挥着关键作用。因为模型的数学能力强,往往代表了模型具有更强的推理和知识整合能力,也能更好的完成其他任务。随着现代大型语言模型(LLMs)如OpenAI的ChatGPT和GPT-4的出现,LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。
原创
发布博客 2024.07.31 ·
1137 阅读 ·
36 点赞 ·
0 评论 ·
13 收藏

MedBench迭代升级,找出最合格的“医学生”

MedBench医疗大模型评测平台进行了全面升级,丰富了评测参评方式,新增API评测,同时优化了开放域问答(Open-domain question answer)的评估指标,通过医学专家标注答题点,进一步确保了评测结果的公平性和专业性。此外,平台在评测数据集、评测方法以及系统功能方面也进行了相应的升级,致力于为医疗大模型评测构建更健全的社区环境,并提供更为丰富、真实的实践场景。
原创
发布博客 2024.07.30 ·
1082 阅读 ·
26 点赞 ·
0 评论 ·
5 收藏

Flames:大语言模型价值对齐评测基准

Flames是由上海人工智能实验室和复旦大学联合构建的大语言模型价值对齐评测基准,包含一个综合性评测框架、高对抗性中文数据集和自动评分模型,囊括Fairness(公平), Safety(安全),Morality(道德),Data Protection(数据保护),以及Legality(合法)五个大维度,Flames名字也来源于此。
原创
发布博客 2024.07.30 ·
1107 阅读 ·
14 点赞 ·
0 评论 ·
29 收藏

可扩展性长文本评测集——Ada-LEval 详细解读

对于一篇长文本 (例如小说),我们从中截取部分分为 N 段,打乱次序提供给 LLM (截取部分的前后临近段落也会作为上下文提供),并要求 LLM 输出段落的正确顺序。因此,在测试过程中,我们仅使用生成式的测试,而非基于 PPL。我们发现,大部分的长文本模型在这一测试集上的表现都不尽如意。开源了评测数据与代码,并提供了评测 InternLM2 与 GPT-4 的样例,以便于社区评测其他的大语言模型。随着大模型能够处理的上下文信息越来越多,达到百万级别的词汇量,人们对于模型长文本能力的研究兴趣也随之增长。
原创
发布博客 2024.07.29 ·
1062 阅读 ·
16 点赞 ·
0 评论 ·
12 收藏

T-Eval:大模型智能体能力评测基准解读 | ACL 2024

AI Agent(智能体)作为大模型的重要应用模式,能够通过使用外部工具来执行复杂任务,完成多步骤的工作流程。为了更全面地评估模型的工具使用能力,司南及合作伙伴团队推出了T-Eval评测基准,相关成果论文已被ACL 2024主会录用。
原创
发布博客 2024.07.29 ·
1648 阅读 ·
34 点赞 ·
0 评论 ·
8 收藏

NeedleBench 超长文本评测基准:大语言模型能否在 1000K 长度上检索推理?

​随着大语言模型(LLMs)在处理长文本方面的能力日益增强,如何准确评估它们在长文本环境中的检索和推理能力成为了一个重要问题。超长文本对LLMs检索关键信息的能力提出了挑战,此外越长的文本中所含的逻辑关系也越复杂,LLMs能够处理超长文本中涵盖的复杂逻辑关系吗?
原创
发布博客 2024.07.26 ·
1330 阅读 ·
13 点赞 ·
0 评论 ·
13 收藏

一文读懂司南大模型评测体系 OpenCompass

在人工智能领域,大语言模型已经成为了技术创新的重要驱动力。为了更好地评估和提升大模型的性能,上海人工智能实验室研发推出了 OpenCompass 司南大模型开源评测体系。该体系是面向大语言模型、多模态大模型等各类模型的一站式评测平台。
原创
发布博客 2024.07.26 ·
1280 阅读 ·
30 点赞 ·
0 评论 ·
29 收藏
加载更多