自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(33)
  • 收藏
  • 关注

转载 LLM的范式转移:RL带来新的 Scaling Law

来自:海外独角兽作者:Cage从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 ...

2024-08-31 17:06:59 540

转载 vllm代码更新太频繁,我该怎么办?

来自:大猿搬砖简记大家好,大家在读vllm源码解读系列时,肯定会有以下疑惑:“vllm仓库当前主分支的代码,好像和当前文章中展示的代码,存在许多不同之处,这是为什么呢?”这是因为vllm的开源社区非常活跃,代码一直在持续更新中。更新内容包括:- 1. 功能优化类更新。- 2. 代码形式类更新(例如把代码写得更漂亮,更对象化等)以我读源码时的经验为例,我在整理完调度器部分的两天后,vllm就对调度器...

2024-08-31 17:06:59 396

转载 揭秘LLMs不确定性背后的隐患:后门攻击的悄然兴起

论文:Uncertainty is Fragile: Manipulating Uncertaintyin Large Language Models链接:https://arxiv.org/pdf/2407.11282研究背景研究问题:这篇文章研究了大型语言模型(LLMs)在处理高 stakes 领域时的可靠性问题,特别是其不确定性估计的脆弱性及其潜在的攻击方法。研究难点:该问题的研究难点包括...

2024-08-31 17:06:59 295

转载 校招生做大模型,选预训练还是SFT?

知乎: ybq链接: https://www.zhihu.com/question/635761315/answer/3608088928我推荐选 pretrain,理由如下:pretrain 提高工程能力,sft 提高认知能力作为校招新人,你的当务之急只有一条:提升工程代码能力!我们拆解一下两个团队所需要的技能,你判断下哪个提升代码能力更快。在 pretrain 团队,你的必修课有:爬取互联网数...

2024-08-30 19:59:21 1940

转载 情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent

来自:机器之心罗盟,本工作的第一作者。新加坡国立大学(NUS)人工智能专业准博士生,本科毕业于武汉大学。主要研究方向为多模态大语言模型和 Social AI、Human-eccentric AI。‍情感计算一直是自然语言处理等相关领域的一个火热的研究课题,最近的进展包括细粒度情感分析(ABSA)、多模态情感分析等等。新加坡国立大学联合武汉大学、奥克兰大学、新加坡科技设计大学、南洋理工大学团队近期在...

2024-08-30 19:59:21 1983

转载 Concise Thoughts:仅通过长度限制,获取更简明的CoT能大幅度提升效果

论文:Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost地址:https://arxiv.org/pdf/2407.19825研究背景研究问题:本文研究了大型语言模型(LLMs)在生成回答时输出长度的控制问题,特别是如何通过提示工程技术(如链式思维提示)来增强输出的解释性和正确性,同时减少生成时间。研究难点:主要难...

2024-08-30 19:59:21 857

转载 微解读 | 到底要不要使用Code?探索Code对pre-training的影响

作者:李磊 香港大学To Code, or Not To Code?Exploring Impact of Code in Pre-traininghttps://arxiv.org/pdf/2408.10914分析 Code Data 在 Pre-training 和 Cooldown 中的作用,分析的切入点:- code 数据在 pretraining 数据里的比例- code 数据的质量- ...

2024-08-29 15:27:59 105

转载 OpenRLHF:大规模分布式RLHF训练系统介绍

主题大规模分布式RLHF训练系统介绍时间2024.9.110:30-11:30周日入群大纲1. RLHF背景知识2. RLHF性能分析3. 基于DeepSpeed的TRLX/TRL/LMF4. 基于Megatron的RLHF5. 基于Ray和vLLM的OpenRLHF6. RLHF调参细节优化引言随着大规模语言模型(LLMs)通过扩展定律不断增长,基于人类反馈的强化学习(RLHF)因其卓越的性...

2024-08-29 15:27:59 805

转载 如何看待 Show-o 和 Transfusion 等 AR+Diffusion 的工作?

Show-o大致如下:作者:Mike Shou链接:https://www.zhihu.com/question/665151133/answer/3608387516来源:知乎好久没来知乎了,简单总结下做这个工作的motivation:1. 宏观来看,当下LLM和Diffusion,都太卷了,进入到靠公司堆资源的阶段。作为科研人员需要破局,更重要的是定义问题,如何将LLM/AR和Diffusio...

2024-08-29 15:27:59 756

转载 当心环境内容的干扰:大模型GUI智能体的忠实度研究

主题当心环境内容的干扰:大模型GUI智能体的忠实度研究时间2024.8.31 10:30-11:30周六入群论文:Caution for the Environment:Multimodal Agents are Susceptible to Environmental Distractions链接:https://arxiv.org/pdf/2408.02544大纲一、背景:自主智能体...

2024-08-28 14:38:00 134

转载 Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

机器之心报道编辑:张倩、小舟五十多年前的理论还值得再研究一下?「相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)。至少从 2016 年起,我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下,模型预测控制是零样本的:如果你有一个良好的世界模型和一个良好的任务目标,模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着...

2024-08-27 17:02:46 166

转载 以DeepSeek-VL为例,详解视觉语言模型原理及代码

来自:炼钢AI最近开始看看视觉语言模型(VLM)相关的东西了,之前没特别仔细看过代码。翻了几篇比较知名的开源VLM技术报告,感觉DeepSeek-VL算是写的比较好的,因此本文就以DeepSeek-VL为例,结合代码写一写VLM的细节。VLM和LLM比较共性的东西比如Self Attention之类的本文就不过多介绍了,重点讲一讲VLM独有的内容。DeepSeek-VL github链接:htt...

2024-08-27 17:02:46 3611

转载 MIT研究:LLM对世界模型的探索

本文转自新智元【导读】MIT CSAIL的研究人员发现,LLM的「内心深处」已经发展出了对现实的模拟,模型对语言和世界的理解,绝不仅仅是简单的「鹦鹉学舌」。也就说,在未来,LLM会比今天更深层地理解语言。LLM离世界模型,究竟有多远?去年,MIT的一篇文章发现了惊人的结论:在LLM内部,存在一个世界模型。LLM不仅学习了表面的统计数据,还学习了包括空间和时间等基本纬度的世界模型。Llama-2-7...

2024-08-27 17:02:46 197

转载 GLM-4-Flash竟然免费了,还可免费微调... 让其他公司咋玩

NLP开发者的又一福音!!8月27日,智谱AI BigModel开放平台宣布:GLM-4-Flash 全部免费,同时开启了GLM-4-Flash 限时免费微调活动。值得注意的是,GLM-4-flash的上下文长度高达128k,直接媲美GPT-4-turbo模型。128k的上下文长度意味着我们甚至可以输入接近20万字的中文进行检索,也就是说GLM4-flash能够秒读完一部长篇小说,然后和我们交流心...

2024-08-27 17:02:46 2211

转载 长文本 Embedding 模型中的“迟分”策略

来自:Jina AI大约一年前,2023 年 10 月,我们推出了全球首个支持 8K 上下文长度的开源 Embedding 模型 —— jina-embeddings-v2-base-en。自此,长文本在 Embedding 模型中的应用引发了广泛讨论和争议。信息压缩问题:将数千字的长文本编码为单一 Embedding 表示会导致语义信息的"过度压缩",使得检索系统难以准确定位特定信息。检索粒度不...

2024-08-26 23:04:46 490

转载 从token到patch,一种LLM加速训练策略

1前言来自:炼钢AI此篇文章出自论文《Patch-Level Training for Large Language Models》,主要思路非常简单,就是把相邻的token embedding进行压缩聚合后输入到LLM中,进而缩短序列的长度加速训练,实验结果显示这种训练速度更快的训练方法,能比原始的LLM训练方法效果还要好,比较出乎预料。。。论文链接:https://arxiv.org/abs/...

2024-08-26 23:04:46 215

转载 图文跨模态检索研究综述

作者:张振兴,王亚雄来源:《北京交通大学学报》编辑:陈萍萍的公主@一点人工一点智能原文:https://jdxb.bjtu.edu.cn/CN/10.11860/j.issn.1673-0291.20230126摘要:图文跨模态检索作为跨模态计算研究的一个核心课题,一直受到学术界和工业界的高度重视。在过去的几十年里,随着深度学习技术的发展,特别是深度神经网络、Transformer架构以及图文对比...

2024-08-26 23:04:46 1415

转载 prompt综述的解释和个人思考

来自:CS的陋室上周手上不太方便,即使后续好了也没有搞定(不过说实话,这篇文章的量似乎没读完也不好搞定)。最近是有3篇prompt的综述非常出名:The Prompt Report: A Systematic Survey of Prompting TechniquesA Systematic Survey of Prompt Engineering in Large Language Model...

2024-08-25 11:55:01 217

转载 如何解读 Yann LeCun推文建议学生不要在大模型方向工作?

作者:摘星狐狸链接:https://www.zhihu.com/question/656903686/answer/3527956804来源:知乎(学术分享,侵删)Yann LeCun的建议说得很直白,LLM已经在大厂手里了,作为一个学生能做的很有限。与其继续在已有的路径上卷,不如去探索更多可能性 -- “lift the limitations of LLMs”!但如果要解读的话,只看字面意思未...

2024-08-25 11:55:01 319

转载 李沐重返母校上海交大,从LLM聊到个人生涯

转载自 | 机器之心感谢这位同学的录制,视频链接见文后。)图源:上海交通大学特聘教授俞勇朋友圈。Hi!大家好,说我是计算机杰出校友有点不敢当。很多年没有回来,这次回国想见一见本科导师。我的 AI 启蒙导师李老师说,来都来了,要不做个报告吧。本来我想讲一些关于语言模型的知识,但听讲座的各位不一定都是这个方向,所以我加了一些这些年转了很多地方、做出的不同选择的感想。第一部分我会讲得稍微技术一点,是有关...

2024-08-25 11:55:01 196

转载 HITSZ-HLT人类语言技术团队招收2025级研究生(含直博生)

团队介绍:哈尔滨工业大学(深圳)人类语言技术团队(HITSZ-HLT) 研究方向主要集中在自然语言处理、情感计算、社交媒体分析、大语言模型、智能体、多模态处理、语言与情感认知等相关领域,以及在社会管理、互联网服务、金融证券等行业的应用落地。主要研究方向:1.大语言模型、大模型检索增强、多智能体协作、智能体记忆2.文本情感计算、多模态情感计算、情感感知与情感支持3.社交媒体态势感知、社交媒体传播分析...

2024-08-22 12:04:28 230

转载 招聘 | 公众号招聘论文解读小伙伴、NICE论文直播平台寻觅小伙伴!

一、【深度学习自然语言处理】公众号负责:前沿论文解读,可配合AI工具要求:热爱NLP、LLM前沿,有刷论文习惯,有经常刷twitter、小红书、知乎等习惯,有敏锐嗅觉可快速识别论文,期望1-2天可产出一篇。有报酬哒~二、NICE论文分享平台主页:https://nice-nlp.github.io寻觅: 优秀的参与者兼主持人,要求具有一定量的paper list,对该公益事业感兴趣,实际参与...

2024-08-22 12:04:28 85

原创 GraphRAG综述来了~

论文:Graph Retrieval-Augmented Generation: A Survey链接:https://arxiv.org/pdf/2408.08921研究背景这篇文章要解决的问题是如何利用图结构信息来增强大型语言模型(LLMs)的生成能力,解决LLMs在处理特定领域知识、实时更新信息和专有知识方面的局限性。研究难点包括:忽略文本之间的关系、冗余信息、缺乏全局信息等。相关工作有检索...

2024-08-22 12:04:28 646

原创 英伟达仅用380B tokens训练刷新8B模型新SoTA,剪枝和蒸馏应该这么用

论文:LLM Pruning and Distillation in Practice: TheMinitron Approach链接:https://d1qx31qr3h6wln.cloudfront.net/publications/minitron_tech_report.pdf单位:nvidia研究背景这篇文章要解决的问题是如何通过剪枝和蒸馏技术来压缩Llama 3.1 8B和Mistr...

2024-08-22 12:04:28 747

转载 你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式

标题你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式时间2024.8.24 10:30-11:30 周六入群内容大纲1.背景-大模型数学推理能力研究现状2.我们为什么需要更好的评估范式?3.MathCheck评估框架设计4.数据构建方法与数据集介绍5.大模型在MathCheck上的性能表现6. 数学推理中的行为分析与发现7. 总结与展望8. QA引言数学推理能力是大语言模...

2024-08-20 20:55:02 248

转载 一文讲明白大模型显存占用(只考虑单卡)

知乎:然荻链接:https://zhuanlan.zhihu.com/p/713256008纯知识分享,侵删1.告诉你一个模型的参数量,你要怎么估算出训练和推理时的显存占用?2.Lora相比于全参训练节省的显存是哪一部分?Qlora相比Lora呢?3.混合精度训练的具体流程是怎么样的?这是我曾在面试中被问到的问题,为了巩固相关的知识,打算系统的写一篇文章,帮助自己复习备战秋招的同时,希望也能帮到各...

2024-08-20 20:55:02 1581

转载 从ACL 2024录用论文看混合专家模型(MoE)最新研究进展

PaperWeekly 原创 ·作者 |杨远航单位 |哈尔滨工业大学(深圳)研究方向 |自然语言处理最近 ACL 2024 论文放榜,扫了下,SMoE(稀疏混合专家)的论文不算多,这里就仔细梳理一下,包括动机、方法、有趣的发现,方便大家不看论文也能了解的七七八八,剩下只需要感兴趣再看就好。下面是列表,顺序大抵是个人兴趣程度排序。1. DeepSeekMoE: Towards Ultimat...

2024-08-14 22:17:36 2246

转载 无矩阵乘法LLM - 一个来自线性Transformer的视角

标题无矩阵乘法LLM - 一个来自线性Transformer的视角时间2024.8.17周六上午10:30-11:30进群论文:Scalable MatMul-free Language Modeling链接:https://arxiv.org/pdf/2406.02528内容大纲 1. 背景: - 无乘法网络 - 线性注意力机制 2. 无乘法语言模型组件介绍...

2024-08-14 22:17:36 184

转载 MOE系列模型-浅谈

来自:NLP工作站在本文中,梳理了近期 (24年7月前)部分 MOE 大模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mixtral 8x7B,Mixtral 8x22B,DeepSeek-MoE,Qwen1.5-MoE,DeepSeek-V2。原文:https://zhuanlan.zhihu.com/p/712676995混合专家模型的 Transformer 模型对于...

2024-08-14 22:17:36 371

转载 百篇代码大模型论文最全整理之7月篇

引言来自:CodeFuse本文整理 2024 年 7 月全球各大高校与科研机构发布的 117 篇代码大模型相关论文,其中包括 12 篇发表于今年 ICML 的论文。根据论文内容,我们将这些论文整理为了基座模型、代码微调、测试基准、代码Agent、低资源语言处理、AI代码安全与分析、人机交互、软件工程下游任务应用(包括代码生成、代码翻译、代码优化、SQL 生成、漏洞检测与修复、软件测试、代码审核、用...

2024-08-07 21:08:55 886

转载 一个半月的LLM预训练、微调(SFT/RW/RLHF/DPO)、推理和部署优化、RAG/Agent等最高效路线图...

我们从2024.1月底到现在已经帮助大几十个同学进阶LLM了,课程不断更新优化,好评不断,期待你的加入~一些成果两位大四本科生0基础通过1个半月的学习,一位拿到20k*14,一位拿到23k*16的LLM岗位数位在职传统NLPer拿到LLM岗位20-50%的跳槽涨薪数位在读硕士orPhD由传统NLP转向LLM科研时代,并投稿出论文我们的小团队:23年面试近50场国内LLM大厂通过率100%拿到多个大...

2024-08-07 21:08:55 400

转载 大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

来自: Jina AI这是我在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间,一位 Jina 用户向我提出了一个 LLM 社区最近热议的问题。他问我们 Jina Embedding 模型能不能判断 9.11 比 9.9 更小,很多大模型在这个小问题上栽了跟头。我说:“说实话,我也不确定。” 他接着详细阐述了这个问题对于他研究的重要性,并暗示:Tokenizer 可能是问题的根源,我若有所思...

2024-08-07 21:08:55 188

转载 一文搞懂SFT、RLHF、DPO、IFT

作者:边路腰刀,清华大学 电子系博士在读声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/710652762编辑:青稞AITL;DR• SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐;• SFT 只通过 LLMs 生成的下一个单词进行估计,而 RLHF 和 DPO 通过 LLMs 生成的完整句子进...

2024-08-07 21:08:55 6231

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除