大语言LLM评测
文章平均质量分 87
大语言LLM评测
AI生成曾小健
"AI生成曾小健2"是该号副号。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是AI生成式技术、AI相关技术、机器人具身智能技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
RMB: 这是一个Reward Model Benchmark
奖励模型引导大规模语言模型的对齐过程,使其朝着人类偏好的行为方向发展。评估奖励模型是更好对齐 LLMs 的关键。然而,由于评估数据往往分布有限,以及当前评估奖励模型的方法与对齐目标之间并不对应,当前对奖励模型的评估可能无法直接反映其对齐性能。为了解决上述局限性,我们提出了RMB 涵盖超过 49 个现实世界场景,并包括成对比较和 Best-of-N(BoN)两种评估模式,以更好地反映奖励模型在引导对齐优化中的有效性。我们通过大量实验展示了我们的基准测试与下游对齐任务表现之间的正相关性。原创 2024-10-26 17:53:20 · 11 阅读 · 0 评论 -
12个国产大模型大战高考数学,意外炸出个大bug
若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分数列。(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列;接下来,我们再来看下国产大模型们的表现。那么,你觉得国产大模型们,原创 2024-07-09 12:15:22 · 579 阅读 · 0 评论 -
更难、更好、更快、更强:LLM Leaderboard v2 现已发布
在过去的一年里,我们评估了超过 7500 个模型,观察到许多模型并没有被社区广泛使用。最常用的通常是新的基础预训练模型,通常使用大量计算资源构建,社区可以随后进行微调以适应其用例 (如 Meta 的 Llama3 或阿里巴巴的 Qwen2)。一些高质量的聊天或指令模型找到了一个庞大的用户社区,如 Cohere 的 Command + R,并成为社区实验的强大起点。♥️然而,其他模型的故事可能不同,即使在排行榜上排名靠前。原创 2024-06-27 20:15:02 · 612 阅读 · 0 评论 -
[代码大模型benchmark]CodeFuseEval - 代码类大模型多任务评估基准
GPT3.5解释代码大模型评测基准回复如下,附:GPT的回答模型评测基准是优化模型、衡量不同架构模型的同类场景功能表现的最有效工具。如下表格,可以看到业界不同代码类评测基准,包含数据集、支持的代码语言、关键评估指标、支持的评测粒度等各个维度信息。附:代码任务评估基准从上述表格可以看到,代码类的评测基准也在逐步演进,从早期的单类型代码语言以及静态指标度量,到近几年支持多种类型代码语言和可执行的度量指标,到今年大模型迸发式发展后,多类型代码语言、多类型指标结合的基准体系。原创 2024-05-14 23:01:10 · 915 阅读 · 0 评论 -
大模型用于知识图谱推理常用范式:兼论基于TransE模型的知识推理实践
本文为了进一步从理论和实践的角度出发,完成一次知识推理的模型训练和推理小任务,增进大家对知识推理的了解,主要从知识推理的三个主流方法与基础任务、基于TransE模型的知识推理的训练、基于TransE模型的知识补全推理实验三个方面进行了介绍。原创 2024-04-24 15:47:32 · 1434 阅读 · 1 评论 -
通用基座大模型是否可以超越领域专有大模型?微软最新论文证明这是可以的!微软最新动态Prompt技术——MedPrompt详解
在微软的案例中,具体来说,就是为GPT-4准备医学领域的预训练数据,在GPT-4回答用户领域问题之前,先通过检索的方法从训练数据中找到近似的问答结果,然后构造few-shot案例,嵌入用户的输入中,再让模型回答问题。这个过程发生在预处理阶段,将所有的领域数据通过自生成思维链技术进行处理,生成一个更加优质的Prompt示例,这样在动态few-shot选择的时候可以获得更加高质量的prompt模板。通过这种方法,研究者能够减少模型在回答多项选择题时对特定选项位置的偏好,从而提高答案的准确性和模型的可靠性。原创 2024-04-20 19:19:01 · 1036 阅读 · 0 评论 -
ICLR 2024 | 一种全新的大语言模型自我检查方法方法
为了解决这个问题,来自牛津大学的研究团队提出了一个通用、零样本验证方法SelfCheck,可用于验证各种推理中发现推理步骤的潜在错误。针对一个具有多步推理的问答过程,SelfCheck使用“目标提取”、“信息收集”、“推理重塑”和“结果对比”四阶段方法验证每个推理步骤的正确性,并提出集成方法综合每个推理步骤的验证成果,并最终用于同一问题下多个答案的加权表决选择。SelfCheck使用数学和逻辑推理领域的代表性数据集进行实验。原创 2024-04-17 10:52:31 · 714 阅读 · 0 评论 -
OpenAI被AI巨头围剿被迫放大招,GPT4炸裂更新,断了其他AI后路了!
第一:相比上个版本,各项测试能力直线上升,原创 2024-04-15 13:53:55 · 215 阅读 · 0 评论 -
开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单 Arena/LocalLlama -> Command R
在HumanEval上,Command R+的代码能力就连GPT-3.5都没打过,在两组测试中分别排在32位和33位。从测试结果来看,在多语种、RAG和工具使用这三个维度上,Command R+都达到了GPT-4 turbo的水平。和此前推出的Command R一样,Command R+的上下文窗口长度是128k。但在输入成本方面,Command R+的价格仅为GPT-4 turbo的1/3。需要说明的是,Command R+的开源只面向学术研究,并不能免费商用。原创 2024-04-13 12:10:30 · 753 阅读 · 0 评论 -
无一幸免!OpenAI最强竞对Anthropic:“长上下文”让大模型更不安全 长上下文窗口攻击
据论文描述,多样本越狱攻击利用了 LLM 在过去一年中大幅增长的一项功能——上下文窗口,即可以处理的输入信息量。2023 年初,LLM 的上下文窗口约为一篇长文的大小(约 4000 个 token)。如今,一些模型的上下文窗口扩大了几百倍,达到了 100 万个 token 或更多,相当于几本长篇小说的长度。那么,原创 2024-04-03 13:50:04 · 889 阅读 · 0 评论 -
大模型评测之 Anthropic找到了打败OpenAI的方法:自己也成为OpenAI
不久前Sam Altman在Lex Friedman最新的播客采访中提到过,OpenAI的目标绝不是给世界带来令人震惊的更新,而是恰恰相反,渐进式达到每一个里程碑,因此下一代LLM会考虑以一种新的形式与公众见面。最新推特是今天刚刚发布的准备与小部分美国开发者合作,测试基于访问量的GPT盈利模式的消息。如果说Anthropic发布Claude 3时引发的“大模型王位易主”讨论还存在参数争议,那么经过近一个月的场下实测,Claude 3的确用实力证明了自己比GPT-4更能打,成为目前LLM争霸赛的最大赢家。原创 2024-03-29 13:41:39 · 711 阅读 · 0 评论 -
AI生成曾小健- 个人CSDN博文目录 - 使用指南 - [置顶]
设置一个自己的专栏目录,方便查找。CSDN二级专栏和一级专栏没有上下级关系,很麻烦不直观。在一篇文章里直接用Ctrl+F都比CSDN内置的目录和分类方便。优先按专栏进行分类,此外列出面经和其他两个分类。只有CSDN不让发审核不过的文章,我一般会发到知乎、掘金或其他社区等其他技术网站上,并放在以下的目录中。原创 2024-03-14 10:57:45 · 181 阅读 · 0 评论 -
Claude 3 与 GPT-4 编码,谁更好? Claude 3 与 GPT-4编码测评
在快速发展的人工智能领域,两种著名的语言模型已经成为帮助开发人员进行编码工作的强大工具——Claude 3 和 GPT-4。在本文中,我们将探讨并比较 Claude 3 和 GPT-4 在各种编码场景中的性能。不过,由于这两个模型在模型设计原理上有所不同,GPT-4有更多经过验证和预训练的数据,未来GPT-4有可能提供更全面的结果。在快速发展的人工智能领域,两种著名的语言模型已经成为帮助开发人员进行编码工作的强大工具——Claude 3 和 GPT-4。Claude 3 与 GPT-4 编码,谁更好?原创 2024-03-14 09:57:36 · 630 阅读 · 0 评论 -
BERT之后,GLUE基准升级为SuperGLUE:难度更大
相比于其它 GLUE 任务,RTE 是从迁移学习获益最多的任务,准确度表现水平从 GLUE 发布时的接近随机(约 56%)提升至了目前的 85%,但这一表现与人类水平仍有 8 个百分点的差距,所以还值得进一步研究探索。每个样本都包含一个含有一个嵌入从句的前提(premise),对应的假设(hypothesis)则是该从句的提取。SuperGLUE 提出者已经提供了在其中七项任务上的基准结果,这些结果是使用基于 BERT 的方法得到的,因为 BERT 在 GLUE 上是当前最成功的方法。原创 2023-08-28 16:38:25 · 213 阅读 · 0 评论