u013250861
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型(LLM)场景:红队测试(Red Teaming)
按“大模型(LLM)场景”来把 **红队测试(Red Teaming)**讲清楚:它是什么、为什么做、测什么、怎么做、产出什么、常见坑与最佳实践。原创 2026-01-27 21:01:52 · 228 阅读 · 0 评论 -
排行榜:C-Eval
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。中查看我们的数据集示例,或查看我们的。原创 2025-05-18 19:21:12 · 315 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):CRUXEval-O
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):CRUXEval-O原创 2025-01-28 11:01:59 · 202 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):CRUXEval-I
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):CRUXEval-I原创 2025-01-28 11:01:21 · 303 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-开放式对话基准:AlignBench
LLM-公共基准评估(Public Benchmark Evaluation)-开放式对话基准:AlignBench。原创 2025-01-28 09:23:51 · 260 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-开放式对话基准:AlpacaEval 2.0
LLM-公共基准评估(Public Benchmark Evaluation):AlpacaEval 2.0。原创 2025-01-28 09:23:20 · 255 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-开放式对话基准:MT-Bench
LLM-公共基准评估(Public Benchmark Evaluation):MT-Bench。原创 2025-01-28 09:21:50 · 216 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-:LiveCodeBench
LLM-公共基准评估(Public Benchmark Evaluation)-:LiveCodeBench。原创 2025-01-28 09:21:00 · 128 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-指令跟随(instruction-following):IFEval
LLM-公共基准评估(Public Benchmark Evaluation)-指令跟随(instruction-following):IFEval。原创 2025-01-28 09:18:17 · 256 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-标准化考试(Standardized exams):AGIEval
LLM-公共基准评估(Public Benchmark Evaluation)-标准化考试(Standardized exams):AGIEval。原创 2025-01-28 09:15:35 · 154 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言建模(Language modeling):CCPM
LLM-公共基准评估(Public Benchmark Evaluation)-语言建模(Language modeling):CCPM。原创 2025-01-28 09:15:30 · 79 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):CMath
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):CMath。原创 2025-01-28 09:15:25 · 90 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-中文理解和文化(Chinese understanding and culture):CHID
LLM-公共基准评估(Public Benchmark Evaluation)-中文理解和文化(Language modeling):Chinese understanding and culture。原创 2025-01-28 09:15:22 · 153 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):GSM8K
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):GSM8K。原创 2025-01-28 09:15:17 · 220 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):HumanEval
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):HumanEval。原创 2025-01-28 09:15:11 · 200 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):MATH
LLM-公共基准评估(Public Benchmark Evaluation)-数学(Math):MATH。原创 2025-01-28 09:15:04 · 159 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):MBPP
LLM-公共基准评估(Public Benchmark Evaluation)-代码(Code):MBPP。原创 2025-01-28 09:14:57 · 289 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言建模(Language modeling):Pile
LLM-公共基准评估(Public Benchmark Evaluation)-语言建模(Language modeling):Pile。原创 2025-01-27 14:07:45 · 129 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-指代消解(Reference disambiguation):CLUEWSC
LLM-公共基准评估(Public Benchmark Evaluation)-指代消解(Reference disambiguation):CLUEWSC。原创 2025-01-27 14:06:59 · 150 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-指代消解(Reference disambiguation):WinoGrande
LLM-公共基准评估(Public Benchmark Evaluation)-指代消解(Reference disambiguation):WinoGrande原创 2025-01-27 14:06:25 · 142 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):C3
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):C3。原创 2025-01-27 14:05:45 · 136 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):DROP
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):DROP。原创 2025-01-27 14:05:13 · 132 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):RACE
LLM-公共基准评估(Public Benchmark Evaluation)-阅读理解(Reading comprehension):RACE。原创 2025-01-27 14:04:42 · 92 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-闭卷问答(Closed-book question answering):NaturalQuestions
公共基准评估(Public Benchmark Evaluation)-闭卷问答(Closed-book question answering):NaturalQuestions。原创 2025-01-27 14:03:52 · 85 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-闭卷问答(Closed-book question answering):TriviaQA
公共基准评估(Public Benchmark Evaluation)-闭卷问答(Closed-book question answering):TriviaQA。原创 2025-01-27 14:03:11 · 90 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):BBH
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):BBH(BigBench Hard)原创 2025-01-27 14:02:28 · 155 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):OpenBookQA
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):OpenBookQA。原创 2025-01-27 14:01:43 · 122 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):ARC
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):ARC。原创 2025-01-27 14:01:13 · 136 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):PIQA
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):PIQA。原创 2025-01-27 14:00:38 · 103 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):HellaSwag
公共基准评估(Public Benchmark Evaluation)-语言理解和推理(Language understanding and reasoning):HellaSwag。原创 2025-01-27 14:00:06 · 243 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice): CMMLU
公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice): CMMLU。原创 2025-01-27 13:59:17 · 165 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice):C-Eval
公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice):C-Eval原创 2025-01-27 13:58:42 · 154 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice):MMLU
公共基准评估(Public Benchmark Evaluation)-多学科选择题(Multi-subject multiple-choice):MMLU。原创 2025-01-27 13:58:09 · 154 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-语言理解与推理(Language understanding and reasoning):ARC
ARC原创 2025-01-27 13:56:21 · 121 阅读 · 0 评论 -
LLM-公共基准评估(Public Benchmark Evaluation)-标准化考试(Standardized exams):AGIEval
AGIEval原创 2025-01-27 13:51:09 · 85 阅读 · 0 评论 -
CUDA编程:概述
ptr2 = 引用栈的P位置上,8个字节。ptr2 = G 把G复制到。原创 2022-06-15 23:32:41 · 2252 阅读 · 1 评论 -
Qualcomm AI Engine Direct SDK(QNN)的使用介绍
Qualcomm AI Engine Direct SDK,高通新的AI模型推理框架,又名QNN,为AI开发提供统一API的底层框架。通过这个SDK,可以在高通的 CPU/GPU和HTP上对AI模型进行性能加速。2.Qualcomm AI Engine Direct SDK的公开英文文档。1.Qualcomm AI Engine Direct SDK的下载和安装。原创 2024-03-28 00:00:41 · 6749 阅读 · 0 评论 -
大模型评测数据集:MMLU、MMCU、C-Eval
DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数,因此我们想要构造一个中文的,有足够区分度的,多学科的基准榜单,来辅助开发者们研发中文大模型。我们花了大概三个月的时间,构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …近期,中文大模型研发如火如荼,但中文评价基准却很少。面对国内大语言模型万箭齐发的局面,如何更好地提升大语言模型对中文的理解能力,更好地服务于全球的中文用户,甲骨易。原创 2023-08-11 01:07:13 · 10670 阅读 · 0 评论 -
NTK等价于Kernel Regression
当然,这篇随笔并不只是上面这篇开山之作(NIPS 2018)的阅读笔记,而是融合了我所需要的NTK相关的基本知识。某种意义上写这篇博客有点“不务正业”了,因为和目前想做的内容没有直接相关。之所以决定好好记录一下NTK是因为最近看到的几篇理论文章在推导时都应用了NTK的假设和一部分内容,并且认真了解网络动力学和优化相关的理论更利于随后工作的开展。反正学到就是赚到。原创 2024-01-03 01:03:20 · 1161 阅读 · 0 评论 -
大模型推理:transformers中的generate函数参数配置
辅助理解案例:2、transformers/generation/configuation_utils.py3、transformers/generation/utils.py/GenerationMixin参考资料:transformers中的generate函数解读以beam search为例,详解transformers中generate方法(上)使用预训练模型自动续写文本的四种方法原创 2023-12-07 01:09:39 · 3007 阅读 · 0 评论
分享