u013250861
这个作者很懒,什么都没留下…
展开
-
排行榜:C-Eval
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。中查看我们的数据集示例,或查看我们的。原创 2025-05-18 19:21:12 · 22 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):CRUXEval-O
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):CRUXEval-O原创 2025-01-28 11:01:59 · 74 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):CRUXEval-I
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):CRUXEval-I原创 2025-01-28 11:01:21 · 70 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-开放式对话基准:AlignBench
LLM-公共基准评估(Public Benchmark Evaluation)-开放式对话基准:AlignBench。原创 2025-01-28 09:23:51 · 85 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-开放式对话基准:AlpacaEval 2.0
LLM-公共基准评估(Public Benchmark Evaluation):AlpacaEval 2.0。原创 2025-01-28 09:23:20 · 85 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-开放式对话基准:MT-Bench
LLM-公共基准评估(Public Benchmark Evaluation):MT-Bench。原创 2025-01-28 09:21:50 · 66 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-:LiveCodeBench
LLM-公共基准评估(Public Benchmark Evaluation)-:LiveCodeBench。原创 2025-01-28 09:21:00 · 61 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-指令跟随(instruction-following):IFEval
LLM-公共基准评估(Public Benchmark Evaluation)-指令跟随(instruction-following):IFEval。原创 2025-01-28 09:18:17 · 50 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-标准化考试(Standardized exams):AGIEval
LLM-公共基准评估(Public Benchmark Evaluation)-标准化考试(Standardized exams):AGIEval。原创 2025-01-28 09:15:35 · 24 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言建模(Language modeling):CCPM
LLM-公共基准评估(Public Benchmark Evaluation)-语言建模(Language modeling):CCPM。原创 2025-01-28 09:15:30 · 20 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):CMath
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):CMath。原创 2025-01-28 09:15:25 · 39 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-中文理解和文化(Chinese understanding and culture):CHID
LLM-公共基准评估(Public Benchmark Evaluation)-中文理解和文化(Language modeling):Chinese understanding and culture。原创 2025-01-28 09:15:22 · 36 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):GSM8K
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):GSM8K。原创 2025-01-28 09:15:17 · 145 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):HumanEval
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):HumanEval。原创 2025-01-28 09:15:11 · 43 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):MATH
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):MATH。原创 2025-01-28 09:15:04 · 59 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):MBPP
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):MBPP。原创 2025-01-28 09:14:57 · 64 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言建模(Language modeling):Pile
LLM-公共基准评估(Public Benchmark Evaluation)-语言建模(Language modeling):Pile。原创 2025-01-27 14:07:45 · 36 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-指代消解(Reference disambiguation):CLUEWSC
LLM-公共基准评估(Public Benchmark Evaluation)-指代消解(Reference disambiguation):CLUEWSC。原创 2025-01-27 14:06:59 · 47 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-指代消解(Reference disambiguation):WinoGrande
LLM-公共基准评估(Public Benchmark Evaluation)-指代消解(Reference disambiguation):WinoGrande原创 2025-01-27 14:06:25 · 32 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):C3
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):C3。原创 2025-01-27 14:05:45 · 22 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):DROP
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):DROP。原创 2025-01-27 14:05:13 · 32 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):RACE
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):RACE。原创 2025-01-27 14:04:42 · 34 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-闭卷问答(Closed-book question answering):NaturalQuestions
公共基准评估(Public Benchmark Evaluation)-闭卷问答(Closed-book question answering):NaturalQuestions。原创 2025-01-27 14:03:52 · 22 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-闭卷问答(Closed-book question answering):TriviaQA
公共基准评估(Public Benchmark Evaluation)-闭卷问答(Closed-book question answering):TriviaQA。原创 2025-01-27 14:03:11 · 25 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):BBH
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):BBH(BigBench Hard)原创 2025-01-27 14:02:28 · 48 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):OpenBookQA
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):OpenBookQA。原创 2025-01-27 14:01:43 · 27 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):ARC
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):ARC。原创 2025-01-27 14:01:13 · 24 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):PIQA
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):PIQA。原创 2025-01-27 14:00:38 · 30 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):HellaSwag
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):HellaSwag。原创 2025-01-27 14:00:06 · 21 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice): CMMLU
公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice): CMMLU。原创 2025-01-27 13:59:17 · 27 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice):C-Eval
公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice):C-Eval原创 2025-01-27 13:58:42 · 35 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice):MMLU
公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice):MMLU。原创 2025-01-27 13:58:09 · 30 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解与推理(Language understanding and reasoning):ARC
ARC原创 2025-01-27 13:56:21 · 33 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-标准化考试(Standardized exams):AGIEval
AGIEval原创 2025-01-27 13:51:09 · 36 阅读 · 0 评论 -
CUDA编程:概述
ptr2 = 引用栈的P位置上,8个字节。ptr2 = G 把G复制到。原创 2022-06-15 23:32:41 · 2107 阅读 · 1 评论 -
Qualcomm AI Engine Direct SDK(QNN)的使用介绍
Qualcomm AI Engine Direct SDK,高通新的AI模型推理框架,又名QNN,为AI开发提供统一API的底层框架。通过这个SDK,可以在高通的 CPU/GPU和HTP上对AI模型进行性能加速。2.Qualcomm AI Engine Direct SDK的公开英文文档。1.Qualcomm AI Engine Direct SDK的下载和安装。原创 2024-03-28 00:00:41 · 5253 阅读 · 0 评论 -
大模型评测数据集:MMLU、MMCU、C-Eval
DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数,因此我们想要构造一个中文的,有足够区分度的,多学科的基准榜单,来辅助开发者们研发中文大模型。我们花了大概三个月的时间,构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …近期,中文大模型研发如火如荼,但中文评价基准却很少。面对国内大语言模型万箭齐发的局面,如何更好地提升大语言模型对中文的理解能力,更好地服务于全球的中文用户,甲骨易。原创 2023-08-11 01:07:13 · 9888 阅读 · 0 评论 -
NTK等价于Kernel Regression
当然,这篇随笔并不只是上面这篇开山之作(NIPS 2018)的阅读笔记,而是融合了我所需要的NTK相关的基本知识。某种意义上写这篇博客有点“不务正业”了,因为和目前想做的内容没有直接相关。之所以决定好好记录一下NTK是因为最近看到的几篇理论文章在推导时都应用了NTK的假设和一部分内容,并且认真了解网络动力学和优化相关的理论更利于随后工作的开展。反正学到就是赚到。原创 2024-01-03 01:03:20 · 1067 阅读 · 0 评论 -
大模型推理:transformers中的generate函数参数配置
辅助理解案例:2、transformers/generation/configuation_utils.py3、transformers/generation/utils.py/GenerationMixin参考资料:transformers中的generate函数解读以beam search为例,详解transformers中generate方法(上)使用预训练模型自动续写文本的四种方法原创 2023-12-07 01:09:39 · 2678 阅读 · 0 评论 -
万字长文,安培架构解析暨RTX3080核弹头知乎首测
编者按:这是我兄弟Cloud原创的RTX3080评测报告。本文无利益相关,属于工作原因接触到的样卡。限于个人水平,差错在所难免,无意当什么KOL,也不标榜客观独立,毕竟这是个人作品,人都有七情六欲,都有喜好厌恶,这不是机器人写的。安培在发布之前,可以说是迷雾重重,特别是在发布前一周,VCZ还煞有介事的放出一张规格图,说RTX 3080和2080TI一样是4352SP,而3090也只是多20%,仅仅有5248SP。也就这样一张规格表,还真忽悠到不少人,我都差点上当。原创 2023-11-23 22:07:31 · 1130 阅读 · 0 评论