小白学C++.-CSDN博客

原创大模型论文：DeepSeek-VL Towards Real-World Vision-Language Understanding

我们提出了，一个开源的视觉-语言（Vision-Language, VL）模型，旨在支持真实世界中的视觉与语言理解应用。我们的研究方法围绕三个核心方向展开：首先，在数据构建方面，我们力求确保数据具备多样性、可扩展性，并能够充分覆盖真实场景，例如网页截图、PDF 文件、OCR 文本、图表以及知识型内容（包括专家知识与教材等），以实现对现实应用语境的全面表征。同时，我们基于真实用户使用场景建立了用例分类体系，并据此构建指令微调数据集。利用这一数据集进行的微调显著提升了模型在实际应用中的用户体验。其次，在。

2025-10-17 16:37:23 1293

原创大模型论文：DeepSeekMoE Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

在大型语言模型时代，专家混合（Mixture-of-Experts，MoE）是一种在扩大模型参数规模时管理计算成本的有前景架构。然而，传统的 MoE 架构（如 GShard）通常采用从NNN个专家中激活前KKK个（Top-KKK）的方式，但在实现专家专化方面面临挑战，也就是说，很难确保每个专家能够学习到互不重叠且专注的知识。为此，我们提出了面向终极专家专化的 DeepSeekMoE 架构。该架构包含两项核心策略：（1）将专家细粒度划分为mNmNmN个子专家，并从中激活mKmKmK。

2025-10-15 11:46:32 1283

原创大模型相关论文：The Platonic Representation Hypothesis 173135 135738

大模型表示趋同现象：迈向柏拉图式真理最新研究发现，不同AI模型（尤其是深度神经网络）的表示空间正在趋同。论文《The Platonic Representation Hypothesis》指出，随着模型规模扩大和多任务能力增强，它们在数据表示方式上越来越相似，甚至跨模态（如视觉与语言）也表现出对齐趋势。这种趋同现象被比喻为"柏拉图式表示"——模型正逐步逼近一个共享的统计现实模型，如同柏拉图洞穴寓言中通过影子认知真实世界。研究表明，模型性能越强、规模越大，其表示对齐度越高

2025-10-11 14:13:04 992

原创大模型agent综述：A Survey on Large Language Model based Autonomous Agents

大模型自主agent综述

2025-09-23 14:37:34 1178

原创强化学习基础概念介绍

强化学习的训练样本（这里指的是智能体与环境交互产生的数据）没有任何标记，即强化学习的训练样本并不是一开始就给好的“输入-标签对”，而是智能体与环境交互过程中自己收集的经验轨迹。强化学习的训练样本不是“数据集中已有的标签”，而是：智能体在环境中探索时所收集的(状态, 动作, 奖励, 下一个状态)的交互记录。它们是强化学习“自学能力”的体现，智能体通过这些数据不断改进自己的策略。在强化学习中，训练样本通常是通过智能体与环境的交互过程收集到的“经验”（也叫“转移”或“轨迹”），一个基本的训练样本单位是一个。

2025-08-29 08:52:37 1039

原创大模型论文：Language Models are Few-Shot Learners(GPT3)

我们证明了，扩大语言模型的规模在任务无关的 few-shot 学习任务中极大提升了表现，有时甚至能与此前最先进的微调方法相竞争。具体来说，我们训练了 GPT-3，这是一种具有 1750 亿参数的自回归语言模型，其参数数量是此前任何非稀疏语言模型的 10 倍。我们在 few-shot 设置中对其性能进行了测试。对于所有任务，GPT-3 都是在没有任何梯度更新或微调的情况下使用的，其任务和 few-shot 示例完全通过文本交互的方式输入给模型。

2025-04-12 22:47:37 2373

原创大模型论文：Language Models are Unsupervised Multitask Learners(GPT2)

自然语言处理任务，例如问答、机器翻译、阅读理解和摘要，通常是通过对特定任务的数据集进行监督学习来实现的。我们展示了，语言模型在没有任何显式监督的情况下，仅通过训练一个名为 WebText 的包含数百万网页的新数据集，就开始学会这些任务。当模型以“文档 + 问题”的形式进行输入时，生成的回答在 CoQA 数据集上达到了 55 的 F1 分数 —— 这一成绩相当于或超过了四个基线系统中的三个的表现，而无需使用 127,000 多个训练样本。

2025-04-11 18:25:07 2196

原创大模型论文：CRAMMING TRAINING A LANGUAGE MODEL ON ASINGLE GPU IN ONE DAY(效率提升)-final

近年来，语言建模的研究趋势集中在通过大规模扩展来提升性能，导致训练语言模型的成本变得高昂，使得大多数研究人员和从业者难以承担。在只有一块消费级GPU、仅训练一天的情况下，我们能取得多大的进展？我们研究了在这种受限环境下，从零开始使用掩码语言建模（Masked Language Modeling, MLM）训练的基于Transformer的语言模型，其在下游任务上的表现。除了重新分析几乎整个预训练流程以适配该场景，并提供一种在性能上接近BERT的修改版流程外，我们还探讨了为何缩小模型规模会如此困难。

2025-04-10 22:41:05 2144

原创大模型论文：FlashAttention Fast and Memory-Efficient Exact Attention with IO-Awareness(效率提升)

Transformer 在处理长序列时速度慢、内存开销大，其原因在于自注意力机制的时间和内存复杂度与序列长度呈二次关系。尽管已有一些近似注意力机制尝试通过牺牲模型精度来降低计算复杂度，但这些方法往往无法在实际运行时间上实现提速。我们认为，这些方法缺少的一个核心原则是IO 感知（IO-aware）—— 即在算法设计中考虑 GPU 不同层级内存之间的数据读写开销。我们提出了，一种IO 感知的精确注意力算法，通过分块（tiling）机制来减少 GPU 高带宽内存（HBM）与片上 SRAM 之间的数据读写操作。

2025-04-08 22:56:24 1057

原创大模型论文：BART

本文提出了 BART，一种用于预训练序列到序列模型（sequence-to-sequence models）的去噪自编码器（denoising autoencoder）。使用任意噪声函数对文本进行扰动（corrupt）；学习一个模型来重建原始文本。BERT（双向编码器）、GPT（左到右的解码器）、许多更近期的预训练方案本文评估了多种噪声策略，发现最优的方案是在原始句子中随机打乱顺序，并使用一种新颖的文本填充机制，该机制将文本中的连续片段用一个单一的 mask token 替换。

2025-04-08 15:16:53 707

原创大模型论文：Improving Language Understanding by Generative Pre-Training

自然语言理解包括各种各样的任务，如文本蕴涵、问题回答、语义相似性评估和文档分类。尽管大量未标记的文本语料库丰富，但用于学习这些特定任务的标记数据很少，这使得判别训练模型难以充分执行。我们证明，通过在不同的未标记文本语料库上对语言模型进行生成式预训练，然后对每个特定任务进行判别性微调，可以实现这些任务的巨大收益。与以前的方法相反，我们在微调期间利用任务感知输入转换来实现有效的传输，同时需要对模型体系结构进行最小的更改。我们在自然语言理解的广泛基准上证明了我们的方法的有效性。

2025-04-07 23:12:33 820