李rumor-CSDN博客

原创 NExtLong｜不使用长文档也能训练出来SOTA长文大模型！

title作者：高超尘、伍星等机构：中国科学院信息工程研究所/小红书/清华Arxiv：https://arxiv.org/abs/2501.12766Huggingface：https://huggingface.co/datasets/caskcsg/NExtLong-512K-dataset 目前五个数据集累积下载次数超过1200次。Github：https://github.com/cas...

2025-02-24 09:18:51 538

原创我的RAG好像有问题

作者：刘金涛、丁瑞雪检索增强生成（Retrieval-Augmented Generation, RAG）致力于通过从外部知识源检索上下文来提升大型语言模型的表现，进而生成更加准确和可靠的答案，从而有效降低幻觉现象的发生。尽管该领域取得了一些进展，但评估这些系统仍然面临一些关键挑战：数据多样性有限：知识库和查询类型的多样性不足，限制了RAG系统的广泛适用性；问题定位困难：RAG系统包括切片、检索、...

2024-10-22 09:18:18 707

原创 Alignment下一站：合成数据

卷友们好，我是rumor。大模型训练中，数据质量已经是所有人的共识了。在23年开始接触Alignment之后，我一直是人工标注流派，深信InstructGPT[1]中所描述的，先train好标注员，再train好模型。那时候各个模型的质量也都一般，合成的数据一眼就能挑到一堆毛病。事情的转折要从sora开始，了解到那么好的效果居然大量应用了合成数据之后，我开始意识到自己还停留在上一个时代。首先大模型...

2024-08-14 09:18:18 957 1

原创大模型对齐阶段的Scaling Laws

卷友们好，我是rumor。随着过去一年大模型技术的发展，数据、模型尺寸scale up后的能力已经不容置疑，scaling law也被越来越多研究者重视起来。在预训练资源消耗如此大的情况下，掌握scaling law有众多优点：提前预测最终模型效果，知道每次训练的大概能到什么程度，要是不及预期可以根据预算再进行调整在小尺寸模型上做置信的实验，进行数据、算法策略验证，降低实验的时间、资源成本在真正的...

2024-04-01 09:18:14 1278 1

原创如果我搬出RLHF+GAN这个设定，你如何应对

卷友们好，我是rumor。前阵子腾讯AI Lab悄悄挂出了一篇文章：Adversarial Preference Optimization (APO)[1]，看到设定我就惊呆了：RLHF+GAN，难道还嫌RLHF本身不够难训吗？但读下来发现作者其实是想解决RLHF一个很重要的问题，而且给出的方法既fancy又优雅。下面，我们直接有请一作本人程鹏宇大佬来讲一下心路历程????。注：文中有公式，请切换到白色...

2023-12-27 09:18:20 1062

原创 OpenAI的Weak-to-Strong在说什么

卷友们好，我是rumor。前阵子OpenAI新成立的SuperAlignment放出了他们的第一篇工作[1]，虽然没有带来太多震撼，只是验证了一个简单的直觉：用弱一点的模型标注数据，精调更强的基模型，得到的效果好于弱模型本身。但通过上面的结论，就可以推断出：用人类标注的数据，精调强于人类的基模型，就能超越人类了。这就是OpenAI的风格，论文看着也没说啥，只是说了一个小规律，但如果把这个小规律sc...

2023-12-21 09:18:46 1212

原创一些RLHF的平替汇总

卷友们好，我是rumor。众所周知，RLHF十分玄学且令人望而却步。我听过有的小道消息说提升很大，也有小道消息说效果不明显，究其根本还是系统链路太长自由度太高，不像SFT一样可以通过数据配比、prompt、有限的超参数来可控地调整效果。但也正是因为它的自由度、以目标为导向的学习范式和性价比更高的标注成本，业内往往认为它会有更高的效果天花板。同时我最近看OpenAI的SuperAlignment计划...

2023-11-16 09:19:01 707

原创有被混合后的SFT数据伤到

卷友们好，我是卡比。SFT是目前最常见的调节模型效果的手段，然而它虽然看起来简单（准备好数据->启动），真正优化起效果来却困难重重，尤其是当我们有一堆能力项要优化时（推理能力、闲聊能力等），事情往往不会像我们预想的那样发展，单独调节能力和混合调节能力完全是两个难度。今天就和大家分享我们在近期的一篇工作，探索混合数据后的模型优化姿势：地址：https://arxiv.org/pdf/2310....

2023-10-20 09:18:47 675

原创做情绪识别，有必要用LLM吗？

卷友们好，我是尚霖。情绪识别在各种对话场景中具有广泛的应用价值。例如，在社交媒体中，可以通过对评论进行情感分析来了解用户的情绪态度；在人工客服中，可以对客户的情绪进行分析，以更好地满足其需求。此外，情绪识别还可以应用于聊天机器人，通过实时分析用户的情绪状态，生成基于用户情感的回复，从而提供更加个性化的交互体验。对话情感识别(Emotion Recognition in Conversation)是...

2023-10-13 09:18:55 405

原创千问的大模型KnowHow

卷友们好，我是rumor。通义千问昨天放出了14b参数的模型，还有一份比较详尽的技术报告，包含作者们训练8个模型的宝贵经验。同时他们开源的13B比起开源的SOTA也有不少提升：今天我们就来一起白嫖，更多细节请移步原文：https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf预训练数据过了3T token，超过...

2023-09-26 09:18:55 1503

原创百川的大模型KnowHow

卷友们好，我是rumor。大模型是一个实验工程，涉及数据清洗、底层框架、算法策略等多个工序，每个环节都有很多坑，因此知道如何避坑和技术选型非常重要，可以节省很多算力和时间，说白了就是一摞摞毛爷爷。近期百川智能发布了Baichuan2的7B和13B版本，可能不少卷友被刷屏惯了没有仔细看，他们在放出模型的同时也给了一份技术报告，里面干货满满，因此我自来水一波，带大家一起看看百川积累的KnowHow。同...

2023-09-13 09:18:48 564

原创 OpenAI的Superalignment策略：计算为王

卷友们好，我是rumor。对于怎么实现AGI这个玄学的目标，感觉大家都是差不多的状态：咱也不知道怎么做，但就是觉得现在的LLM技术还远远不够。所以之前看到OpenAI说要用模型去做对齐研究[1]，以及最近发话要4年内做出SuperAlignment[2]时，我都是一脸问号，觉得没什么新东西，get不到他们的思路。为什么要做AI研究器直到最近断断续续刷了两遍Jan Leike的访谈，我突然有种悟了的...

2023-08-21 09:18:22 166

原创从OpenAI VPT，看视频预训练

卷友们好，我是rumor。视频预训练一直是我很期待的方向，毕竟文本的表达是有限的，如果让大模型建立起对世界的多模态认知，可能很多常识知识问题、world model就迎刃而解了。另外互联网的文本数据也逐渐无法跟上Scaling law，下一步必然会走向多模态。然而直到现在好像也没看到能很好利用视频数据来做Foundation模型的方法，恰好最近又看了OpenAI去年发布的VPT[1]这篇工作，没想...

2023-08-07 09:18:57 261

原创 CV什么时候能迎来ChatGPT时刻？

卷友们好，我是rumor。最近看了几篇CV的工作，肉眼就感受到了CVer们对于大一统模型的“焦虑”。这份焦虑让他们开始尝试统一一切，比如：统一复杂的自动驾驶任务的优化目标[1]，来自今年CVPR最佳论文。统一典型的CV任务，包括图片理解、推理、编辑[2]。今年CVPR另一篇最佳论文。仿照LLM的方式设计Large Vision Model的范式雏形[3]。然而如今NLP进化出这样的统一范式太难得了...

2023-06-27 09:18:42 1175

原创 EmbodiedGPT｜具身智能或将成为实现AGI的最后一公里

卷友们好，我是穆尧。最近由Chatgpt所引爆的新一代人工智能的革命正在如火如荼的进行，几乎重塑了所有的互联网产品，如办公软件、浏览器插件、搜索引擎、推荐系统等。这样巨大的改变，让大家对通用人工智能又燃起了新的希望，而可能成为我们通往通用人工智能（AGI）的最后一公里。具身智能将AI从基于互联网的虚拟领域转化为具有实体形态和与物理世界实时交互能力的实体，这对于达到或超越人类智能的实现至关重要。构建...

2023-06-09 09:18:13 2225

原创 In-Context Learning中的示例选择及效果

一. ICL的背景大型语言模型（LLM）如GPT-3是在大规模的互联网文本数据上训练，以给定的前缀来预测生成下一个token（Next token prediction）。这样简单的训练目标，大规模数据集以及高参数量模型相结合，产生了性能极强的LLM，它可以“理解”任何文本输入，并在其基础上进行“写作”，除此以外，GPT-3的论文发现[1]，大规模的训练数据会产生一种有趣的新兴行为，称为In-C...

2023-04-24 09:18:04 928

原创 RLHF魔法的衍生研究方向

卷友们好，我是rumor。前段时间分享了个人认为复现ChatGPT的一些难点和平替方案，当时在重读OpenAI InstructGPT论文时，有个惊奇的发现，即1.3B小模型+RLHF居然可以超越175B指令精调后的效果。当时就想，有没有可能ChatGPT就是个小模型，结果最近OpenAI公开接口价格后让这种猜想的可能性又增加了。由于InstructGPT给出的效果太好，让我最近对RL+LM很感兴...

2023-03-08 09:18:21 345

原创追赶ChatGPT的难点与平替

卷友们好，我是rumor。最近ChatGPT真的太火爆了，让人很难静下心。一方面是对它的能力感到不安，以后各个NLP子任务可能就统一起来了，范式也会变成预训练+Prompt，不需要那么多精调模型的算法了。另一方面是对国内复现ChatGPT感到悲观，那么大的模型，真的需要很强的决心，投入足够的人力、财力和时间才能做出来。调整了几周，终于回归开卷的心态，捋了一遍我认为复现ChatGPT的难点与平替方案...

2023-02-19 09:18:06 3601

原创如何用深度学习模型预测未来？

卷友们好呀，我是Carrie。当我们环顾身边的世界，是不是会发现现实世界其实是由无数个相互关联的事件（Event）所构成的呢？而从古至今，人们也都希望自己拥有未卜先知、预测未来的能力。今天，就带大家了解一个关于事件预测的任务，一起成为小诸葛(doge.jpg)今天带大家了解的任务叫做脚本事件预测(Script Event Prediction) 。何为脚本呢？脚本就是描述了特定人物一系列行为的一个...

2023-01-30 09:18:33 1494

原创 In-Context Learning玩法大全

卷友们好，我是rumor。虽然ChatGPT在大众眼里的热度可能已经过去了，但它prompt出了我的焦虑，于是最近一直在补大模型相关的工作。比起小模型，大模型有一个很重要的涌现能力（Emergent ability）就是In-Context Learning（ICL），也是一种新的范式，指在不进行参数更新的情况下，只在输入中加入几个示例就能让模型进行学习，如下图中用ICL做情感分析任务的栗子：忽略...

2023-01-06 09:18:34 5414

原创只有我一个人对ChatGPT感到蕉绿吗？

卷友们好，我是rumor。上周四，在国内公众号还没刷屏的时候，我就看到ChatGPT发布的消息了，当时迅速看了下博客内容，心想「就这？」，这不跟DeepMind的Sparrow一样吗？而且设计的还没它好，Sparrow专门设计了一个可控的防攻击机制：当时也懒得去注册账号，就快速写了篇技术解读完事了。没想到周末的时候，这个声势越来越浩大，我赶紧跟风去买了个账号聊了一会，那时我的心情变成了：「卧槽？？...

2022-12-09 09:18:41 4098 3

原创我用diffusion把姐妹cos成了灭霸的模样

卷友们好，我是rumor。关注早的朋友们应该知道，我有个姐妹，她去年回深圳老家了，本来我觉得还ok，还能再约着一起旅游。谁知道一年多了，我还没出过北京（微笑。以前有个快乐源泉，就是照她的黑照，但素材库已经好久没新增了。正好最近想学文生图，于是就只能对不起她了。经过一番折腾，终于有了些效果，发到了B站上，欢迎大家验（三）收（连）：点击文末阅读原文直达B站下面，我分享一下这次可控生成的步骤，其实非常简...

2022-12-03 13:58:30 816 1

原创 OpenAI发布ChatGPT！手把手debug代码！

卷友们好，我是rumor。已经好久没看OpenAI的官网[1]了，但今天冥冥之中感觉受到了什么召唤，心想GPT4什么时候发布，莫名地就打开了，果然有料：试用：https://chat.openai.com/它把魔抓又伸向对话了！来一起看看官方放出的case吧：帮人Debug代码，并进行多轮询问：识别出危险问题并拒绝回答，但用户说明意图后给出了更好的回复：执行指令，甚至改很多遍也不生气：还有个指代消...

2022-12-01 21:18:38 19904 7

原创读了14篇论文，终于会拿捏Diffusion了

卷友们好，我是中森。扩散模型自2020年的DDPM以来，以其种种优异的特性（如训练简便，对数据分布拟合效果极好，本身的构造体系使得性质调控更加优雅直接等），在两年来横扫整个学术界，甚至出圈引起了广泛的大众讨论。每一天都会有新的文章新的方法被提出，但因为领域发展得实在太快，这些文章往往基于不同阶段的扩散模型成果添砖加瓦，使得其在短至发表几个月后就已落伍或只有参考意义。如果对整个扩散领域发展的脉络没有...

2022-11-28 09:18:39 1585

原创 2022年对话技术梳理：科研进展、产品创新

卷友们好，我是rumor。2022年稍纵即逝，我掐指一算居然只剩2个月来完成下半年的OKR了。Anyway，在脚踏实地的同时，也需要多往星空看看。今年我关注了不少对话方向的进展，这篇文章就来稍微梳理一下，欢迎对话方向的同学来一起交流，或者在评论区推荐被我漏掉的工作。先限定一下讨论范围，其实我关注的不仅是对话，而是更general的人机交互，只要是通过自然语言，操纵机器，让其给出反馈的场景都可以用到...

2022-11-08 09:18:44 516

原创伙伴招募！要一起搞事情吗？

卷友们好，我是rumor。没错！当你看到这篇文章的时候！就说明我已经卷不动了！从20年10月份决定写公众号开始，我已经差不多周更了两年的时间，在这中间的日子里，我放弃了学唱歌、放弃了减肥，唯独坚持每周看点论文写篇文章。这份小坚持，也让我在这两年里有了很大的成长。除去工作上的技术能力提升，还认识了很多有意思的人，有创业公司的老板、有大厂的高管、还有一些高潜的小同学，在和他们的交流中学到了很多道理。直...

2022-10-20 09:18:15 424

原创来，和AI玩角色扮演吗？

卷友们好，我是rumor。对话机器人在前几年就火过一波，后来真正被验证成功的商业模式只有智能音箱、智能客服，但在这两种产品中，闲聊始终不占据主要位置。所以我一度觉得，闲聊要等到很大的技术突破后才会有所应用。没想到近期，一种新型的对话产品悄然崭露，他们就是：虚拟角色对话。通俗的解释就是角色扮演（不要想多了，这是正经的技术文章）。不管是生成文本还是图像，模型效果的好坏和我们对结果的预期强相关。比如在体...

2022-10-13 09:18:44 3018

原创没想到下一代AI助手，来得这么突然

卷友们好，我是rumor。AI助手是一个老生常谈的话题了，老到甚至在慢慢淡出资本和人们的视线，Siri、Alexa、Google Assistant、百度小度、天猫精灵、小米小爱等等，已经把市场、场景占有的差不多了，同时技术能力也到了一个瓶颈，NLP的对话水平不上不下，用户的期待也慢慢被消磨掉了。其实场景并没有被占满，只是技术还不够通用罢了。对于助手这种任务型对话来说，每个任务都要定制化写程序处理...

2022-09-16 09:18:17 576

原创既然决定了卷论文，那就开卷吧！

卷友们好，我是rumor。又到了开学季，一大波研究生即将入学。对人工智能方向的硕士同学来说，不管是导师要求、自己想做研究、还是为了找份好工作，越来越多的同学开始卷Paper了。而当实验室没有科研氛围时，自己从0到1完成一篇顶会级别的论文可是真的难，因为它需要很强的综合能力，同时还有很大的不确定性和失败概率。今天我就和MLNLP社区一起，分享一份简单的RoadMap，我们会综合企业面试官、硕博士学长...

2022-08-24 09:18:37 489

原创 MetaAI的融合怪：BlenderBot

卷友们好，我是rumor。不知道还有没有人记得Meta在8月初推出了BlenderBot3，并且和LaMDA一样对部分人开放了（US only）。对话作为NLP的明珠，我怎么能错过，于是我开心地下载了BlenderBot1、2、3，没想到这一看，两周就过去了。之所以叫它融合怪，是因为它不管是从数据集，还是模型，还是评估方法，都在疯狂融合所有，每一季的论文都有二三十页不说，甚至还有companion...

2022-08-19 09:18:36 1039

原创为什么都去卷文本生成图像？？？

卷友们好，我是rumor。躺在我微信浮窗里最多的就是文本生成图像的工作了，本来这个方向我以为我是可以拿捏的，结果自从他们开始用Diffusion模型之后我就再也跟不上了，而且这类文章动辄20页起，慢慢地我就放过了自己。那天我在清理这些报道库存时，突然油然而生一个拷问：为什么大家都在卷这个方向？这些生成的画作虽然让人惊艳，但它们能产生实际的价值吗？应该如何去落地甚至商业化呢...

2022-07-25 09:18:14 1111

原创下一站，Embodied AI

卷友们好，我是rumor。不知大家有没有注意到（也可能是我敏感了），最近一些大机构不约而同地开始挖新坑了，两个风向标DeepMind和OpenAI，先后发布了Gato和VPT，期望除了图像和文本之外，预训练模型也能够与环境交互。这个方向，叫Embodied AI（具象AI）。与具象AI对立的词是Internet AI[1]，指通过互联网上的数据进行学习，比如我们一直在做的...

2022-07-14 09:18:27 1077 1

原创 LeCun的建模

卷友们好，我是rumor。解决问题是个有意思的过程，也是很多工程师的成就感来源。记得我从上家公司离职时，一位技术前辈给我的职业忠告，就是要不断提升自己解决问题的能力。我也是一直把这句话印在脑子里的，然而随着接触的真实场景越来越多，我发现很多时候「定义问题更加重要」。定义问题，就是对一个问题，找到WHY。一旦WHY找到了，再逐步拆解，一个个解决就完了。上面聊的太没意思了，那...

2022-06-29 09:18:44 259

原创这个AI竞赛的综艺我爱了

卷友们好，我是rumor。去年年初，我看了一场蚂蚁举办的《燃烧吧！天才程序员》综艺，一共只有上下两集，节奏紧凑，让人看了直呼过瘾。好看的皮囊千篇一律，有趣的灵魂万里挑一，男团选秀哪有这个刺激。但当时的播放量也不是很高，我以为播一期就算了，没想到我昨天中午吃饭刷B站的时候，居然给我推送了第二季的预告！！！第二季是一场60小时的科技反欺诈挑战，共有24位大佬参赛，本周一二三晚...

2022-06-14 09:18:38 363

原创交互模型你快跑，双塔要卷过来了

卷友们好，我是rumor。文本匹配是NLP的一个重要任务，应用场景也十分广泛，比如搜索中query和doc的匹配、问答中query和answer的匹配、甚至再泛化点来讲，也可应用到推荐、多模态图文匹配中，甚至NER、分类都可以用匹配来解。去年写过一篇文本匹配的综述，分别列举了匹配任务中的两种范式，双塔式和交互式：这两种范式各有优缺点：双塔（左图）的速度很快，但是由于缺少两...

2022-05-23 09:18:54 630

原创 LaMDA2｜谷歌目前最先进的对话AI发布！

卷友们好，我是rumor。又到了一年一度的谷歌I/O大会，I/O是Innovation in the Open的缩写，每一年谷歌都会发布一些新的产品以及能力，因此这个大会广受关注。我之前申请GDE（谷歌开发者专家）的motivation之一就是为了免费出国参加I/O大会这个福利，没想到形势一直不好，希望过两年能白嫖上。话说远了，即使不能到现场，也能在线上参加呀！打开这个网...

2022-05-13 09:18:00 3455

原创 DeepMind出手了！多模态少样本打败精调

卷友们好，我是rumor。我已经好久没看多模态的paper了，记忆中多模态20年开始火起来，但那时还是模仿BERT的阶段，直接把图像编码放到Transformer里进行预训练，是直接针对一个个任务的。然后就是21年DALLE出来了，但只是文本->图像的生成，图像-文本只有CLIP这种纯编码器的模型。直到最近关注了一篇DeepMind的Flamingo模型，没想到多模...

2022-05-09 09:18:00 1297

原创训练一个1750亿参数量的模型，需要几个算法工程师？

卷友们好，我是rumor。昨天突然被刷屏了，一句话概括就是Meta AI开源了一个1750亿参数的模型，暗戳戳直指Closed-AI的GPT-3。OPT:OpenPre-trainedTransformerLanguageModelshttps://arxiv.org/abs/2205.01068现实就是这么魔幻，开源公司要搞商业，商业公司要搞开源。而且作者之...

2022-05-05 09:18:00 978 1

原创程序员延寿指南

卷友们好，我是rumor。本来我想学习的，论文都已经打开了，但是朋友突然给我发来了一个github项目，看了之后我觉得还是这个项目更重要，于是带大家来学习一波。项目名称：程序员延寿指南项目地址：https://github.com/geekan/HowToLiveLonger这个项目的目标如同它的题目，就是帮助大家「稳健的活得更久」，有了O（object）之后，作者延续...

2022-04-21 09:18:00 358

原创预训练模型的下一步？突破Impossible Triangle

卷友们好，我是rumor。昨天刷Arxiv看到一篇比较有意思的文章：ImpossibleTriangle:What’sNextforPre-trainedLanguageModels?https://arxiv.org/abs/2204.06130文章只有两个作者，来自微软Azure的Cognitive Services Research Group，一作...

2022-04-15 09:18:00 2694

空空如也

空空如也