大语言模型系列

———————————————————————————————————————————

推理和数学能力4个评测基准:

  • MMLU : 全称Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。论文地址:https://arxiv.org/abs/2009.03300

  • C-Eval : C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和匹兹堡大学研究人员在2023年5月份联合推出,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。论文地址:https://arxiv.org/abs/2305.08322

  • AGI Eval : 微软发布的大模型基础能力评测基准,在2023年4月推出,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。因此,该测试更加倾向于人类考试结果,涵盖了中英文,论文地址:https://arxiv.org/abs/2304.06364

  • GSM8K : OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。该项测试在2021年10月份发布,至今仍然是非常困难的一种测试基准,论文地址:https://arxiv.org/abs/2110.14168

可以看到,这四种大模型评测结果都有各自的针对性,从一般的知识与广泛的能力到中英文,再到数学推理,应该说是基本可以覆盖大多数的需求。

1、编程能力评测基准包括2个:

  • Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。 这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,因为在实际编程中,代码不仅需要语法正确,还需要能够正确执行预定任务。结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

  • MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了974个短小的Python函数问题,由谷歌在2021年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

各大模型评估

各大模型编程能力评估,gpt-4(84%,截至202311月其他模型60%都没有)

——————————————————————————————————————————

11月李开复亲自下场的大模型发布,登顶开源榜单,200k上下文窗口直接开源

国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B

大模型和AI到 202309 的重要进展

为什么说大模型训练很难? - 知乎

GitHub - jeinlee1991/chinese-llm-benchmark: 中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!

——————————————————————————————————————————

2、入手大语言模型

1、chatglm系列,LLaMa2开始

2、代码模型实践部署

chatglm系列+多模态(中英文)chatglm 基于llama2系列

WizardCoder-Python-34 (codellama 微调而来的,接近gpt4,接近gpt4)

codeLLama 基于llama2 微调(7月份开源出来,精度类似gpt3.5)

deepseek code  (11月出来的,开源模型强,接近gpt4)

WizardCoder-33B-v1.1,EvalPlus排行榜开源第一

大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)

学会4个,chatglm1.2.3,LLaMa2,codellama, baichuan,  Aquila2

3、chatglm 系列是中英文:  chatglm 一直更新,多模态,3.0都已经出来

ChatGLM2-6B、ChatGLM-6B 模型介绍及训练自己数据集,2080TI显卡全流程实战 - 知乎

LLaMa2系列codellama  ,都是国内其他模型模仿的微调的基础

GPT4、Claude 和 Bard  是闭源的

2024:


1、免训练!免微调!ProMISe:使用SAM进行可提示医学图像分割
2、GE医疗使用英伟达(NVIDIA)技术成功研发出最新的研究模型——SonoSAMTrack1

3、超声报告生成Ultrasound Report Generation with Cross-Modality Feature Alignment via Unsupervised Guidance

4、超越MedSAM,微软联合华盛顿大学王晟团队提出BiomedParse:全方位、全领域的医学图像解析模型  超越MedSAM,微软联合华盛顿大学王晟团队提出BiomedParse:全方位、全领域的医学图像解析模型专注论文润色与翻译服务icon-default.png?t=N7T8https://mp.weixin.qq.com/s/1Elak2rDYz-ZUXUmkbxm3g

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值