自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(4036)
  • 收藏
  • 关注

原创 微软提出GRIN MoE,引领大规模预训练模型的新浪潮

链接:https://arxiv.org/html/2409.12136v1论文:GRIN: GRadient-INformed MoE研究背景研究问题:这篇文章要解决的问题是如何有效地训练混合专家(MoE)模型,以克服稀疏计算对传统训练方法的挑战。MoE模型通过专家路由选择性地激活少量专家模块,从而实现比密集模型更有效的扩展。然而,离散的专家路由阻碍了标准的反向传播和基于梯度的优化。研究难点:该...

2024-09-19 23:55:33 585

转载 OpenAI o1 self-play RL 技术路线推演

知乎:曹宇链接:https://zhuanlan.zhihu.com/p/720106482OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。在数理推理领域获得了傲人的成绩,同时提出了train-time compute和test-time compute两个全新的RL scaling law。作为领域博主,在时效性方面肯定卷不过其他营销号了,所...

2024-09-17 20:56:48 393

转载 “博士级”模型GPT-o1折戟中学数学“陷阱”问题,准确率仅为24.3%

来自:FudanNLP北京时间9月13日凌晨,OpenAI正式推出最新模型GPT-o1,一时间引发学界与工业界的广泛讨论,相较于先前版本GPT-4o,新模型在各大评测指标上显著提升,号称已达"博士级"智能水平。图一:最新发布的GPT-o1 在广泛的基准测试中优于 GPT-4o然而,我们的最新研究结果却给这个"AI天才"泼了一盆冷水——在面对中学数学水平的"陷阱"问题时,GPT-o1惨遭滑铁卢:在我...

2024-09-17 20:56:48 50

转载 人人都能看懂的DPO数学原理

一、DPO在做一件什么事来自:大猿搬砖简记在文章的开始,我们来思考一个问题:如果想让你训练一个能听得懂人类问题,并给出人类满意答案的模型,你会怎么设计大致的训练步骤?一口吃成一个大胖子是困难的,所以不如让我们循序渐进地来设计这个训练过程:首先,你的模型必须要有充足的知识储备,以应对你可能提出的任何问题其次,你的模型需要明白“你在提出问题”或者“你在下达指令”这个动作,它在理解这一点的基础上,尝试按...

2024-09-16 23:49:16 30

原创 简单图解一下线性注意力机制

知乎:刀刀宁链接:https://zhuanlan.zhihu.com/p/718156896线性注意力机制的文章有很多了,在本篇笔记中,我们简单地对各种方法进行一下图解比较,串一下当前的线性注意力机制,涉及的公式极少,主要梳理逻辑脉络。本文会从 state space model 中间状态模型这条主线,来梳理 RNN、LSTM,再到 Retentive、GLA 等 Linear Attentio...

2024-09-16 23:49:16 665

转载 2025智谱AI校园招聘正式启动!

2024-09-15 21:23:13 3

转载 技术上,如何复现 o1?

知乎:周舒畅链接:https://zhuanlan.zhihu.com/p/720127190基础模型搞 o1 首先需要一个基模,这个基模必须是:能进行“长”生成。注意这和“长 context”不是一回事。模型生成的结果,经常会有自激的噪声存在,或分布逐渐变得非常 sharp,从而导致模型生成内容的后半段质量下降。比如写小说时会“烂尾”,用大团圆草草收场。在多模生成模型上也很容易观察到这一现象,表...

2024-09-15 21:23:13 6

原创 小模型在大型语言模型时代的角色:一项全面调查

这篇论文探讨了在大型语言模型(LLMs)时代小型模型(SMs)的角色,特别是它们在协作和竞争中的表现。论文:What is the Role of Small Models in the LLM Era: A Survey地址:https://arxiv.org/pdf/2409.06857研究背景研究问题:这篇文章探讨了在大语言模型(LLMs)时代,小模型(SMs)的作用和重要性。尽管LLMs在...

2024-09-13 12:18:45 652

原创 中科院提出GPT-4o实时语音交互的开源对手:Llama-Omni

论文:LLaMA-Omni: Seamless Speech Interaction with Large Language Models地址:https://arxiv.org/pdf/2409.06666研究背景研究问题:这篇文章要解决的问题是如何基于开源的大型语言模型(LLMs)构建低延迟高质量的语音交互模型。传统的基于文本的交互方式限制了LLMs在非理想文本输入输出场景中的应用,而实时语音...

2024-09-12 23:06:18 524

原创 2万字的SFT for Alignment 总结纪要

知乎:张峻旗链接:https://zhuanlan.zhihu.com/p/717553974本文是个人大模型学习笔记的第二十五篇,以18K再次刷新了单篇字符记录,感兴趣的话可以点击专栏阅读其余笔记,欢迎各位知友在评论区交流、指正。入选「知势榜」8月成长力榜,完全超出笔者预料,也激励自己坚持在本专栏分享学习心得。大模型学习笔记www.zhihu.com/column/c_1765686812465...

2024-09-12 23:06:18 431

原创 研究表明,LLMs的幻觉问题是我们永远无法逃避的...

论文:LLMs Will Always Hallucinate, and We Need to Live With This地址:https://arxiv.org/abs/2409.05746研究背景研究问题:这篇文章探讨了大型语言模型(LLMs)的固有限制,特别是它们在生成内容时产生的幻觉(hallucinations)问题。研究指出,幻觉不仅仅是偶尔的错误,而是这些系统的固有特性。研究难点:...

2024-09-12 23:06:18 481

转载 AnyGPT | 基于离散表示统一多模态理解与生成:把一种新模态当作一门外语 -- NICE27期...

主题基于离散表示统一多模态理解与生成:把一种新模态当作一门外语时间2024.9.14 20:00-21:00 周六入群论文:AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling地址:https://arxiv.org/pdf/2402.12226大纲首个统一多模态理解与生成的模型SpeechGPT:使大语言模型具有内生的语音对...

2024-09-11 22:50:00 104

转载 探究大模型微调 Lora 的不同形态(上篇): AdaLora、 AsLora、 PiSSA、 DoRA

知乎:周星星链接:https://zhuanlan.zhihu.com/p/719438707排版:AI椰青@深度学习自然语言处理 公众号前言最近本人一直在研究 SFT 的落地工作,其中 LoRA 是一个无法避开的微调技术。相比全参数微调,LoRA 提供了一种更为友好和安全的微调方案。首先,LoRA 在资源使用上更为高效。它能显著节省显存,使得我们在有限的计算资源下也能训练 size 更大的模型。...

2024-09-11 22:50:00 123

原创 “后期分块”:用长上下文嵌入模型拯救文本检索

论文:Late Chunking: Contextual Chunk Embeddings Using Long-ContextEmbedding Models地址:https://arxiv.org/abs/2409.04701研究背景研究问题:这篇文章要解决的问题是文本块嵌入在处理长文本时丢失上下文信息的问题。具体来说,当文本被分割成多个小块进行嵌入时,每个块的嵌入可能会失去与其他块的上下文...

2024-09-11 22:50:00 916

原创 Sirius:一种高效的上下文稀疏性校正方法,恢复稀疏模型在推理任务上的性能...

论文:Sirius: Contextual Sparsity with Correction for Efficient LLMs地址:https://www.arxiv.org/abs/2409.03856研究背景研究问题:这篇文章要解决的问题是大型语言模型(LLMs)在推理效率上的挑战。随着LLMs的广泛应用,如何在保持模型性能的同时减少计算成本成为一个重要的研究方向。研究难点:该问题的研究难...

2024-09-11 22:50:00 330

转载 LLMs 能够生成创新的研究想法吗?——一项针对 100 多位 NLP 研究者的大规模人类研究...

论文:Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers地址:https://arxiv.org/abs/2409.04109研究背景研究问题:这篇文章探讨了大型语言模型(LLMs)在生成新颖研究想法方面的能力。具体来说,研究问题是 LLMs 是否能够生成与专家人类研...

2024-09-10 17:28:13 82

转载 DPO,RM,RLHF 傻傻分不清楚

知乎:曹宇链接:https://zhuanlan.zhihu.com/p/718913850编辑:AI椰青 | 深度学习自然语言处理 公众号纯学术分享,侵删DPO 的论文引用最近已经破千了,成了斯坦福的Chelsea Finn组的机器人超猛PhD学生R.M. Rafailov的第一被引论文。又由于第二梯队的大模型频繁提及DPO的变种,DPO+RM的用法未来估计机器人界的思潮对于LLM的正向影响不会...

2024-09-10 17:28:13 69

转载 中科院提出大模型“基准泄露”排行榜,Qwen模型位居榜首

编辑&整理:深度学习自然语言处理 公众号近期,大规模语言模型在多个自然语言处理的基准测试中取得了显著的进展。这些模型之所以能够取得成功,部分原因在于它们通过对互联网上收集的庞大语料库进行广泛的预训练。然而,预训练语料库可能因为开发者有意或无意的数据收集行为,包含了各种评估基准的数据。这种数据泄露可能导致无法准确评估模型的真实性能,模型可能仅仅是记住了难题的答案。研究发现,当一个大型语言模型...

2024-09-10 17:28:13 77

原创 揭秘MagicDec:如何推测解码让长文本处理不再纠结于延迟与吞吐?

论文:MagicDec-part2: Breaking the Latency-Throughput Tradeoff for Long Contexts with Speculative Decoding链接:https://infini-ai-lab.github.io/MagicDec-part2研究背景研究问题本文旨在解决大型语言模型(LLMs)在长上下文应用中,如何在低延迟和高吞吐量之间...

2024-09-09 20:09:59 886

原创 探索自然语言中的计划搜索:提升大型语言模型代码生成性能的新方法

论文:Planning In Natural Language Improves LLM Search For Code Generation 链接:https://arxiv.org/pdf/2409.03733研究背景研究问题本文研究了如何在大语言模型(LLMs)的推理计算中进行有效的搜索,以提高代码生成的性能。具体来说,作者发现当前LLMs在推理时缺乏多样性,导致搜索效率低下。研究难点该问题...

2024-09-09 20:09:59 618

转载 2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

知乎:是念链接:https://zhuanlan.zhihu.com/p/710021282学术分享,侵删今年做过一段时间的alignment工作,做得有点不开心,各种social的原因,觉得自己的发挥受到了限制,最近又闲下来了,所以看了一些相关的论文,但是对这个方向还是挺感兴趣的,这里来分享一下我对alignment的一些理解。对齐一般使用的是chat或者instruct模型,而不是base模型...

2024-09-09 20:09:59 386

原创 重复采样魔法:用更多样本击败单次尝试的最强模型

这篇文章探讨了通过增加生成样本的数量来扩展大型语言模型(LLMs)在推理任务中的表现。研究发现,重复采样可以显著提高模型的覆盖率,特别是在具有自动验证工具的任务中。研究还发现,覆盖率与样本数量之间的关系可以用指数幂律建模,揭示了推理时间的扩展规律。尽管多数投票和奖励模型在样本数量增加时趋于饱和,但在没有自动验证工具的任务中,识别正确样本仍然是一个重要的研究方向。总体而言,重复采样提供了一种有效的方...

2024-09-06 19:36:31 954

转载 关于如何做科研的一些个人经验 -- 清华AP、Mooncake作者

知乎:ZHANG Mingxing链接:https://zhuanlan.zhihu.com/p/718156903最近开学季,被抓来给研究生新生们做个关于“如何做研究的”的入学教育报告。会后大家希望发 ppt,但里面暴论太多必须得加些备注叠叠甲,所以花了点时间补充了下备注。再然后想着写都写了,干脆也不敝帚自珍了发出来让大家一起拍拍砖。需要特别申明一下的是,虽然是入学教育但是全篇都是个人主观的、不...

2024-09-06 19:36:31 133

转载 Alignment下一站:合成数据

来自:李rumorNICE26期 |大语言模型多选题评估的偏见与鲁棒性大模型训练中,数据质量已经是所有人的共识了。在23年开始接触Alignment之后,我一直是人工标注流派,深信InstructGPT[1]中所描述的,先train好标注员,再train好模型。那时候各个模型的质量也都一般,合成的数据一眼就能挑到一堆毛病。事情的转折要从sora开始,了解到那么好的效果居然大量应用了合成数据之后,...

2024-09-05 13:33:33 107

原创 最强MoE完全开源模型发布啦~

这篇文章介绍了OLMOE(Open Mixture-of-Experts Language Models)系列模型,这是一款开源的稀疏混合专家模型。OLMOE-1B-7B拥有70亿参数,但每个输入令牌仅使用10亿参数。该模型在5万亿令牌上进行预训练,并进一步适应以创建OLMOE-1B-7B-INSTRUCT。这些模型在相似活跃参数的模型中表现最佳,甚至超越了更大的模型,如Llama2-13B-Ch...

2024-09-04 21:46:06 603

原创 MemLong: 长文本的新记忆大师,可将上下文长度从4k提升到80k!

这篇文章介绍了一个名为MemLong的模型,它通过使用外部检索器来增强长文本建模的能力。MemLong结合了一个不可微的检索-记忆模块和一个部分可训练的解码器-仅语言模型,并引入了一种细粒度、可控的检索注意力机制,利用语义级别的相关块。在多个长文本建模基准测试上的综合评估表明,MemLong在性能上一致超越了其他最先进的大型语言模型。更重要的是,MemLong能够在单个3090 GPU上将上下文长...

2024-09-04 21:46:06 629

原创 情境化逻辑:LLMs推理能力的真正试金石

论文:Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities地址:https://arxiv.org/pdf/2406.02787研究背景研究问题:这篇文章旨在系统地解耦纯逻辑推理和文本理解,通过研究来自多个领域的抽象和情境化逻辑问题的对比,探讨大型语言模型(LLMs)在不同领域...

2024-09-03 19:50:57 902

转载 大语言模型多选题评估的偏见与鲁棒性

主题大语言模型多选题评估的偏见与鲁棒性 On the bias and robustness of LLM Multiple Choice Question Evaluation时间2024.9.720:00 本周六晚8点入群论文1:"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruc...

2024-09-03 19:50:57 113

原创 ACL2024 | LLM+RAG可能要毁了信息检索,一份深入研究

论文:[ACL2024] Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering地址:https://arxiv.org/pdf/2404.10496研究背景研究问题:这篇文章研究了大型语言模型(LLMs)...

2024-09-02 13:31:00 881

转载 千问团队tech lead解读Qwen2-VL:让我们先把视觉理解干上去!(一)

知乎:林俊旸链接:https://zhuanlan.zhihu.com/p/717704002编辑:AI椰青正值前几天发布Qwen2-VL,大家应该在我们的博客或者各个公众号看到我们模型的表现,并且看到我们开源了Qwen2-VL-7B和Qwen2-VL-2B以及推出了Qwen2-VL-72B的API。如果你还没看过,请点击下面几个链接:Blog:https://qwenlm.github.io/b...

2024-09-02 13:31:00 566

转载 一周打完1000场官司,中科院发布首个AI法庭AgentCourt!

编辑:LRST来自:新智元在人工智能重塑各个行业的今天,法律界也迎来了前所未有的变革。传统的法律实践面临着效率低下、成本高昂等挑战,而AI技术的出现为解决这些问题提供了新的可能。从最初斯坦福小镇火遍全网,25个由大语言模型(LLMs)驱动的智能体生活交友,打开了多Agent新视角。而现在,AI法庭也来了!最近,来自中科院深圳先进研究院的研究团队开发了一个名为AgentCourt的模拟智能法庭,它是...

2024-09-01 22:33:47 213

转载 大模型领域,你心目中 idea 最惊艳的论文是哪篇?

知乎:Beyond Hsueh链接:https://www.zhihu.com/question/665735775/answer/3611972970推荐一篇 ICLR 2023 的文章:Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation 。虽...

2024-09-01 22:33:47 71

转载 入坑大模型18个月的反思与贩私

知乎: Minogame链接: https://zhuanlan.zhihu.com/p/717402693编辑:包包算法笔记前几天开完一个有高层参加的会议,会后组里的技术大佬直接就开喷“要规划没规划,整天只知道对着几个糊弄老板的榜使劲刷”。我下意识地赶紧去拉住他,低声对他讲“你声音太小了,老板听不到的,回头我领你去大厦的保安室,你用紧急通报的喇叭讲给全楼的人听”。他仿佛意识到了什么,便回我若要率...

2024-09-01 22:33:47 52

转载 LLM的范式转移:RL带来新的 Scaling Law

来自:海外独角兽作者:Cage从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 ...

2024-08-31 17:06:59 277

转载 vllm代码更新太频繁,我该怎么办?

来自:大猿搬砖简记大家好,大家在读vllm源码解读系列时,肯定会有以下疑惑:“vllm仓库当前主分支的代码,好像和当前文章中展示的代码,存在许多不同之处,这是为什么呢?”这是因为vllm的开源社区非常活跃,代码一直在持续更新中。更新内容包括:- 1. 功能优化类更新。- 2. 代码形式类更新(例如把代码写得更漂亮,更对象化等)以我读源码时的经验为例,我在整理完调度器部分的两天后,vllm就对调度器...

2024-08-31 17:06:59 79

转载 揭秘LLMs不确定性背后的隐患:后门攻击的悄然兴起

论文:Uncertainty is Fragile: Manipulating Uncertaintyin Large Language Models链接:https://arxiv.org/pdf/2407.11282研究背景研究问题:这篇文章研究了大型语言模型(LLMs)在处理高 stakes 领域时的可靠性问题,特别是其不确定性估计的脆弱性及其潜在的攻击方法。研究难点:该问题的研究难点包括...

2024-08-31 17:06:59 111

转载 校招生做大模型,选预训练还是SFT?

知乎: ybq链接: https://www.zhihu.com/question/635761315/answer/3608088928我推荐选 pretrain,理由如下:pretrain 提高工程能力,sft 提高认知能力作为校招新人,你的当务之急只有一条:提升工程代码能力!我们拆解一下两个团队所需要的技能,你判断下哪个提升代码能力更快。在 pretrain 团队,你的必修课有:爬取互联网数...

2024-08-30 19:59:21 1855

转载 情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent

来自:机器之心罗盟,本工作的第一作者。新加坡国立大学(NUS)人工智能专业准博士生,本科毕业于武汉大学。主要研究方向为多模态大语言模型和 Social AI、Human-eccentric AI。‍情感计算一直是自然语言处理等相关领域的一个火热的研究课题,最近的进展包括细粒度情感分析(ABSA)、多模态情感分析等等。新加坡国立大学联合武汉大学、奥克兰大学、新加坡科技设计大学、南洋理工大学团队近期在...

2024-08-30 19:59:21 1528

转载 Concise Thoughts:仅通过长度限制,获取更简明的CoT能大幅度提升效果

论文:Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost地址:https://arxiv.org/pdf/2407.19825研究背景研究问题:本文研究了大型语言模型(LLMs)在生成回答时输出长度的控制问题,特别是如何通过提示工程技术(如链式思维提示)来增强输出的解释性和正确性,同时减少生成时间。研究难点:主要难...

2024-08-30 19:59:21 717

转载 微解读 | 到底要不要使用Code?探索Code对pre-training的影响

作者:李磊 香港大学To Code, or Not To Code?Exploring Impact of Code in Pre-traininghttps://arxiv.org/pdf/2408.10914分析 Code Data 在 Pre-training 和 Cooldown 中的作用,分析的切入点:- code 数据在 pretraining 数据里的比例- code 数据的质量- ...

2024-08-29 15:27:59 43

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除