自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(4053)
  • 收藏
  • 关注

转载 Alignment下一站:合成数据

来自:李rumorNICE26期 |大语言模型多选题评估的偏见与鲁棒性大模型训练中,数据质量已经是所有人的共识了。在23年开始接触Alignment之后,我一直是人工标注流派,深信InstructGPT[1]中所描述的,先train好标注员,再train好模型。那时候各个模型的质量也都一般,合成的数据一眼就能挑到一堆毛病。事情的转折要从sora开始,了解到那么好的效果居然大量应用了合成数据之后,...

2024-09-05 13:33:33 109

原创 最强MoE完全开源模型发布啦~

这篇文章介绍了OLMOE(Open Mixture-of-Experts Language Models)系列模型,这是一款开源的稀疏混合专家模型。OLMOE-1B-7B拥有70亿参数,但每个输入令牌仅使用10亿参数。该模型在5万亿令牌上进行预训练,并进一步适应以创建OLMOE-1B-7B-INSTRUCT。这些模型在相似活跃参数的模型中表现最佳,甚至超越了更大的模型,如Llama2-13B-Ch...

2024-09-04 21:46:06 612

原创 MemLong: 长文本的新记忆大师,可将上下文长度从4k提升到80k!

这篇文章介绍了一个名为MemLong的模型,它通过使用外部检索器来增强长文本建模的能力。MemLong结合了一个不可微的检索-记忆模块和一个部分可训练的解码器-仅语言模型,并引入了一种细粒度、可控的检索注意力机制,利用语义级别的相关块。在多个长文本建模基准测试上的综合评估表明,MemLong在性能上一致超越了其他最先进的大型语言模型。更重要的是,MemLong能够在单个3090 GPU上将上下文长...

2024-09-04 21:46:06 639

原创 情境化逻辑:LLMs推理能力的真正试金石

论文:Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities地址:https://arxiv.org/pdf/2406.02787研究背景研究问题:这篇文章旨在系统地解耦纯逻辑推理和文本理解,通过研究来自多个领域的抽象和情境化逻辑问题的对比,探讨大型语言模型(LLMs)在不同领域...

2024-09-03 19:50:57 904

转载 大语言模型多选题评估的偏见与鲁棒性

主题大语言模型多选题评估的偏见与鲁棒性 On the bias and robustness of LLM Multiple Choice Question Evaluation时间2024.9.720:00 本周六晚8点入群论文1:"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruc...

2024-09-03 19:50:57 120

原创 ACL2024 | LLM+RAG可能要毁了信息检索,一份深入研究

论文:[ACL2024] Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering地址:https://arxiv.org/pdf/2404.10496研究背景研究问题:这篇文章研究了大型语言模型(LLMs)...

2024-09-02 13:31:00 885

转载 千问团队tech lead解读Qwen2-VL:让我们先把视觉理解干上去!(一)

知乎:林俊旸链接:https://zhuanlan.zhihu.com/p/717704002编辑:AI椰青正值前几天发布Qwen2-VL,大家应该在我们的博客或者各个公众号看到我们模型的表现,并且看到我们开源了Qwen2-VL-7B和Qwen2-VL-2B以及推出了Qwen2-VL-72B的API。如果你还没看过,请点击下面几个链接:Blog:https://qwenlm.github.io/b...

2024-09-02 13:31:00 722

转载 一周打完1000场官司,中科院发布首个AI法庭AgentCourt!

编辑:LRST来自:新智元在人工智能重塑各个行业的今天,法律界也迎来了前所未有的变革。传统的法律实践面临着效率低下、成本高昂等挑战,而AI技术的出现为解决这些问题提供了新的可能。从最初斯坦福小镇火遍全网,25个由大语言模型(LLMs)驱动的智能体生活交友,打开了多Agent新视角。而现在,AI法庭也来了!最近,来自中科院深圳先进研究院的研究团队开发了一个名为AgentCourt的模拟智能法庭,它是...

2024-09-01 22:33:47 215

转载 大模型领域,你心目中 idea 最惊艳的论文是哪篇?

知乎:Beyond Hsueh链接:https://www.zhihu.com/question/665735775/answer/3611972970推荐一篇 ICLR 2023 的文章:Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation 。虽...

2024-09-01 22:33:47 81

转载 入坑大模型18个月的反思与贩私

知乎: Minogame链接: https://zhuanlan.zhihu.com/p/717402693编辑:包包算法笔记前几天开完一个有高层参加的会议,会后组里的技术大佬直接就开喷“要规划没规划,整天只知道对着几个糊弄老板的榜使劲刷”。我下意识地赶紧去拉住他,低声对他讲“你声音太小了,老板听不到的,回头我领你去大厦的保安室,你用紧急通报的喇叭讲给全楼的人听”。他仿佛意识到了什么,便回我若要率...

2024-09-01 22:33:47 52

转载 LLM的范式转移:RL带来新的 Scaling Law

来自:海外独角兽作者:Cage从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 ...

2024-08-31 17:06:59 287

转载 vllm代码更新太频繁,我该怎么办?

来自:大猿搬砖简记大家好,大家在读vllm源码解读系列时,肯定会有以下疑惑:“vllm仓库当前主分支的代码,好像和当前文章中展示的代码,存在许多不同之处,这是为什么呢?”这是因为vllm的开源社区非常活跃,代码一直在持续更新中。更新内容包括:- 1. 功能优化类更新。- 2. 代码形式类更新(例如把代码写得更漂亮,更对象化等)以我读源码时的经验为例,我在整理完调度器部分的两天后,vllm就对调度器...

2024-08-31 17:06:59 82

转载 揭秘LLMs不确定性背后的隐患:后门攻击的悄然兴起

论文:Uncertainty is Fragile: Manipulating Uncertaintyin Large Language Models链接:https://arxiv.org/pdf/2407.11282研究背景研究问题:这篇文章研究了大型语言模型(LLMs)在处理高 stakes 领域时的可靠性问题,特别是其不确定性估计的脆弱性及其潜在的攻击方法。研究难点:该问题的研究难点包括...

2024-08-31 17:06:59 120

转载 校招生做大模型,选预训练还是SFT?

知乎: ybq链接: https://www.zhihu.com/question/635761315/answer/3608088928我推荐选 pretrain,理由如下:pretrain 提高工程能力,sft 提高认知能力作为校招新人,你的当务之急只有一条:提升工程代码能力!我们拆解一下两个团队所需要的技能,你判断下哪个提升代码能力更快。在 pretrain 团队,你的必修课有:爬取互联网数...

2024-08-30 19:59:21 1860

转载 情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent

来自:机器之心罗盟,本工作的第一作者。新加坡国立大学(NUS)人工智能专业准博士生,本科毕业于武汉大学。主要研究方向为多模态大语言模型和 Social AI、Human-eccentric AI。‍情感计算一直是自然语言处理等相关领域的一个火热的研究课题,最近的进展包括细粒度情感分析(ABSA)、多模态情感分析等等。新加坡国立大学联合武汉大学、奥克兰大学、新加坡科技设计大学、南洋理工大学团队近期在...

2024-08-30 19:59:21 1539

转载 Concise Thoughts:仅通过长度限制,获取更简明的CoT能大幅度提升效果

论文:Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost地址:https://arxiv.org/pdf/2407.19825研究背景研究问题:本文研究了大型语言模型(LLMs)在生成回答时输出长度的控制问题,特别是如何通过提示工程技术(如链式思维提示)来增强输出的解释性和正确性,同时减少生成时间。研究难点:主要难...

2024-08-30 19:59:21 722

转载 微解读 | 到底要不要使用Code?探索Code对pre-training的影响

作者:李磊 香港大学To Code, or Not To Code?Exploring Impact of Code in Pre-traininghttps://arxiv.org/pdf/2408.10914分析 Code Data 在 Pre-training 和 Cooldown 中的作用,分析的切入点:- code 数据在 pretraining 数据里的比例- code 数据的质量- ...

2024-08-29 15:27:59 47

转载 OpenRLHF:大规模分布式RLHF训练系统介绍

主题大规模分布式RLHF训练系统介绍时间2024.9.110:30-11:30周日入群大纲1. RLHF背景知识2. RLHF性能分析3. 基于DeepSpeed的TRLX/TRL/LMF4. 基于Megatron的RLHF5. 基于Ray和vLLM的OpenRLHF6. RLHF调参细节优化引言随着大规模语言模型(LLMs)通过扩展定律不断增长,基于人类反馈的强化学习(RLHF)因其卓越的性...

2024-08-29 15:27:59 75

转载 如何看待 Show-o 和 Transfusion 等 AR+Diffusion 的工作?

Show-o大致如下:作者:Mike Shou链接:https://www.zhihu.com/question/665151133/answer/3608387516来源:知乎好久没来知乎了,简单总结下做这个工作的motivation:1. 宏观来看,当下LLM和Diffusion,都太卷了,进入到靠公司堆资源的阶段。作为科研人员需要破局,更重要的是定义问题,如何将LLM/AR和Diffusio...

2024-08-29 15:27:59 333

转载 当心环境内容的干扰:大模型GUI智能体的忠实度研究

主题当心环境内容的干扰:大模型GUI智能体的忠实度研究时间2024.8.31 10:30-11:30周六入群论文:Caution for the Environment:Multimodal Agents are Susceptible to Environmental Distractions链接:https://arxiv.org/pdf/2408.02544大纲一、背景:自主智能体...

2024-08-28 14:38:00 43

转载 Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

机器之心报道编辑:张倩、小舟五十多年前的理论还值得再研究一下?「相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)。至少从 2016 年起,我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下,模型预测控制是零样本的:如果你有一个良好的世界模型和一个良好的任务目标,模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着...

2024-08-27 17:02:46 74

转载 以DeepSeek-VL为例,详解视觉语言模型原理及代码

来自:炼钢AI最近开始看看视觉语言模型(VLM)相关的东西了,之前没特别仔细看过代码。翻了几篇比较知名的开源VLM技术报告,感觉DeepSeek-VL算是写的比较好的,因此本文就以DeepSeek-VL为例,结合代码写一写VLM的细节。VLM和LLM比较共性的东西比如Self Attention之类的本文就不过多介绍了,重点讲一讲VLM独有的内容。DeepSeek-VL github链接:htt...

2024-08-27 17:02:46 138

转载 MIT研究:LLM对世界模型的探索

本文转自新智元【导读】MIT CSAIL的研究人员发现,LLM的「内心深处」已经发展出了对现实的模拟,模型对语言和世界的理解,绝不仅仅是简单的「鹦鹉学舌」。也就说,在未来,LLM会比今天更深层地理解语言。LLM离世界模型,究竟有多远?去年,MIT的一篇文章发现了惊人的结论:在LLM内部,存在一个世界模型。LLM不仅学习了表面的统计数据,还学习了包括空间和时间等基本纬度的世界模型。Llama-2-7...

2024-08-27 17:02:46 105

转载 GLM-4-Flash竟然免费了,还可免费微调... 让其他公司咋玩

NLP开发者的又一福音!!8月27日,智谱AI BigModel开放平台宣布:GLM-4-Flash 全部免费,同时开启了GLM-4-Flash 限时免费微调活动。值得注意的是,GLM-4-flash的上下文长度高达128k,直接媲美GPT-4-turbo模型。128k的上下文长度意味着我们甚至可以输入接近20万字的中文进行检索,也就是说GLM4-flash能够秒读完一部长篇小说,然后和我们交流心...

2024-08-27 17:02:46 320

转载 长文本 Embedding 模型中的“迟分”策略

来自:Jina AI大约一年前,2023 年 10 月,我们推出了全球首个支持 8K 上下文长度的开源 Embedding 模型 —— jina-embeddings-v2-base-en。自此,长文本在 Embedding 模型中的应用引发了广泛讨论和争议。信息压缩问题:将数千字的长文本编码为单一 Embedding 表示会导致语义信息的"过度压缩",使得检索系统难以准确定位特定信息。检索粒度不...

2024-08-26 23:04:46 111

转载 从token到patch,一种LLM加速训练策略

1前言来自:炼钢AI此篇文章出自论文《Patch-Level Training for Large Language Models》,主要思路非常简单,就是把相邻的token embedding进行压缩聚合后输入到LLM中,进而缩短序列的长度加速训练,实验结果显示这种训练速度更快的训练方法,能比原始的LLM训练方法效果还要好,比较出乎预料。。。论文链接:https://arxiv.org/abs/...

2024-08-26 23:04:46 58

转载 图文跨模态检索研究综述

作者:张振兴,王亚雄来源:《北京交通大学学报》编辑:陈萍萍的公主@一点人工一点智能原文:https://jdxb.bjtu.edu.cn/CN/10.11860/j.issn.1673-0291.20230126摘要:图文跨模态检索作为跨模态计算研究的一个核心课题,一直受到学术界和工业界的高度重视。在过去的几十年里,随着深度学习技术的发展,特别是深度神经网络、Transformer架构以及图文对比...

2024-08-26 23:04:46 246

转载 prompt综述的解释和个人思考

来自:CS的陋室上周手上不太方便,即使后续好了也没有搞定(不过说实话,这篇文章的量似乎没读完也不好搞定)。最近是有3篇prompt的综述非常出名:The Prompt Report: A Systematic Survey of Prompting TechniquesA Systematic Survey of Prompt Engineering in Large Language Model...

2024-08-25 11:55:01 77

转载 如何解读 Yann LeCun推文建议学生不要在大模型方向工作?

作者:摘星狐狸链接:https://www.zhihu.com/question/656903686/answer/3527956804来源:知乎(学术分享,侵删)Yann LeCun的建议说得很直白,LLM已经在大厂手里了,作为一个学生能做的很有限。与其继续在已有的路径上卷,不如去探索更多可能性 -- “lift the limitations of LLMs”!但如果要解读的话,只看字面意思未...

2024-08-25 11:55:01 75

转载 李沐重返母校上海交大,从LLM聊到个人生涯

转载自 | 机器之心感谢这位同学的录制,视频链接见文后。)图源:上海交通大学特聘教授俞勇朋友圈。Hi!大家好,说我是计算机杰出校友有点不敢当。很多年没有回来,这次回国想见一见本科导师。我的 AI 启蒙导师李老师说,来都来了,要不做个报告吧。本来我想讲一些关于语言模型的知识,但听讲座的各位不一定都是这个方向,所以我加了一些这些年转了很多地方、做出的不同选择的感想。第一部分我会讲得稍微技术一点,是有关...

2024-08-25 11:55:01 90

转载 HITSZ-HLT人类语言技术团队招收2025级研究生(含直博生)

团队介绍:哈尔滨工业大学(深圳)人类语言技术团队(HITSZ-HLT) 研究方向主要集中在自然语言处理、情感计算、社交媒体分析、大语言模型、智能体、多模态处理、语言与情感认知等相关领域,以及在社会管理、互联网服务、金融证券等行业的应用落地。主要研究方向:1.大语言模型、大模型检索增强、多智能体协作、智能体记忆2.文本情感计算、多模态情感计算、情感感知与情感支持3.社交媒体态势感知、社交媒体传播分析...

2024-08-22 12:04:28 77

转载 招聘 | 公众号招聘论文解读小伙伴、NICE论文直播平台寻觅小伙伴!

一、【深度学习自然语言处理】公众号负责:前沿论文解读,可配合AI工具要求:热爱NLP、LLM前沿,有刷论文习惯,有经常刷twitter、小红书、知乎等习惯,有敏锐嗅觉可快速识别论文,期望1-2天可产出一篇。有报酬哒~二、NICE论文分享平台主页:https://nice-nlp.github.io寻觅: 优秀的参与者兼主持人,要求具有一定量的paper list,对该公益事业感兴趣,实际参与...

2024-08-22 12:04:28 46

原创 GraphRAG综述来了~

论文:Graph Retrieval-Augmented Generation: A Survey链接:https://arxiv.org/pdf/2408.08921研究背景这篇文章要解决的问题是如何利用图结构信息来增强大型语言模型(LLMs)的生成能力,解决LLMs在处理特定领域知识、实时更新信息和专有知识方面的局限性。研究难点包括:忽略文本之间的关系、冗余信息、缺乏全局信息等。相关工作有检索...

2024-08-22 12:04:28 430

原创 英伟达仅用380B tokens训练刷新8B模型新SoTA,剪枝和蒸馏应该这么用

论文:LLM Pruning and Distillation in Practice: TheMinitron Approach链接:https://d1qx31qr3h6wln.cloudfront.net/publications/minitron_tech_report.pdf单位:nvidia研究背景这篇文章要解决的问题是如何通过剪枝和蒸馏技术来压缩Llama 3.1 8B和Mistr...

2024-08-22 12:04:28 662

转载 你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式

标题你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式时间2024.8.24 10:30-11:30 周六入群内容大纲1.背景-大模型数学推理能力研究现状2.我们为什么需要更好的评估范式?3.MathCheck评估框架设计4.数据构建方法与数据集介绍5.大模型在MathCheck上的性能表现6. 数学推理中的行为分析与发现7. 总结与展望8. QA引言数学推理能力是大语言模...

2024-08-20 20:55:02 70

转载 一文讲明白大模型显存占用(只考虑单卡)

知乎:然荻链接:https://zhuanlan.zhihu.com/p/713256008纯知识分享,侵删1.告诉你一个模型的参数量,你要怎么估算出训练和推理时的显存占用?2.Lora相比于全参训练节省的显存是哪一部分?Qlora相比Lora呢?3.混合精度训练的具体流程是怎么样的?这是我曾在面试中被问到的问题,为了巩固相关的知识,打算系统的写一篇文章,帮助自己复习备战秋招的同时,希望也能帮到各...

2024-08-20 20:55:02 335

转载 从ACL 2024录用论文看混合专家模型(MoE)最新研究进展

PaperWeekly 原创 ·作者 |杨远航单位 |哈尔滨工业大学(深圳)研究方向 |自然语言处理最近 ACL 2024 论文放榜,扫了下,SMoE(稀疏混合专家)的论文不算多,这里就仔细梳理一下,包括动机、方法、有趣的发现,方便大家不看论文也能了解的七七八八,剩下只需要感兴趣再看就好。下面是列表,顺序大抵是个人兴趣程度排序。1. DeepSeekMoE: Towards Ultimat...

2024-08-14 22:17:36 158

转载 无矩阵乘法LLM - 一个来自线性Transformer的视角

标题无矩阵乘法LLM - 一个来自线性Transformer的视角时间2024.8.17周六上午10:30-11:30进群论文:Scalable MatMul-free Language Modeling链接:https://arxiv.org/pdf/2406.02528内容大纲 1. 背景: - 无乘法网络 - 线性注意力机制 2. 无乘法语言模型组件介绍...

2024-08-14 22:17:36 76

转载 MOE系列模型-浅谈

来自:NLP工作站在本文中,梳理了近期 (24年7月前)部分 MOE 大模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mixtral 8x7B,Mixtral 8x22B,DeepSeek-MoE,Qwen1.5-MoE,DeepSeek-V2。原文:https://zhuanlan.zhihu.com/p/712676995混合专家模型的 Transformer 模型对于...

2024-08-14 22:17:36 123

转载 百篇代码大模型论文最全整理之7月篇

引言来自:CodeFuse本文整理 2024 年 7 月全球各大高校与科研机构发布的 117 篇代码大模型相关论文,其中包括 12 篇发表于今年 ICML 的论文。根据论文内容,我们将这些论文整理为了基座模型、代码微调、测试基准、代码Agent、低资源语言处理、AI代码安全与分析、人机交互、软件工程下游任务应用(包括代码生成、代码翻译、代码优化、SQL 生成、漏洞检测与修复、软件测试、代码审核、用...

2024-08-07 21:08:55 205

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除