大模型
文章平均质量分 87
CS实验室
致力于计算机、人工智能相关领域的研发和教学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
OpenAI GPT-5.5 技术深度报告
OpenAI于2026年4月23日发布GPT-5.5,这是自GPT-4.5以来首次全新预训练而非迭代更新。该模型采用原生全模态架构,实现文本、图像、音频和视频的端到端统一处理,并与NVIDIA硬件协同设计,显著提升效率。GPT-5.5在Agent编程、知识工作等基准测试中表现优异,支持百万级Token上下文窗口,并优化了多工具工作流能力。相比前代,其Token效率提升40%,推理延迟保持稳定,成为首个从底层面向Agent任务设计的AI模型。原创 2026-05-12 10:03:16 · 1489 阅读 · 0 评论 -
DeepSeek-V4 旗舰模型技术深度报告
DeepSeek-V4 旗舰模型技术报告摘要(150字): DeepSeek-AI发布V4系列MoE模型,支持100万Token超长上下文。V4-Pro(1.6T参数)和V4-Flash(284B参数)采用创新混合注意力机制(CSA+HCA),解决传统Transformer在长上下文中的计算瓶颈。核心突破包括流形约束超连接、Muon优化器、FP4量化感知训练等六大架构创新,推理效率较V3提升73%。模型完全基于国产昇腾芯片运行,配套开发了TileLang DSL和确定性内核库等基础设施。在知识与推理基准测试原创 2026-05-12 08:50:48 · 979 阅读 · 0 评论 -
从硬件抽象到意图对齐:论 AI 时代操作系统演进的逻辑必然与 OpenClaw 的范式价值
摘要: 操作系统(OS)的演进本质是抽象层级的提升。传统OS屏蔽硬件复杂性,而大语言模型(LLM)和自主代理(Agent)的兴起正推动OS从"工具操作"向"意图交付"转变。OpenClaw框架通过对AI资源和互联网工作流的抽象,解决了资源离散性和工作流非标准化两大瓶颈。其将网页交互抽象为AI可理解的原子操作,实现了资源与工作流的解耦。未来操作系统(AIOS)将向语义化内核、应用概念瓦解、确定性与概率性融合的方向发展,最终成为以"精准实现人类意图"为原创 2026-03-13 08:26:12 · 864 阅读 · 0 评论 -
大模型技术综述:从Transformer到多模态的智能革命
大模型技术正经历前所未有的快速发展阶段,截至2025年6月,全球已发布3755个大模型,其中中国企业贡献了1509个,数量居全球首位。从2012年神经网络应用于语言建模,到2017年Transformer架构的革命性突破,再到2025年谷歌Titans架构的诞生,大模型技术正从纯文本处理向多模态理解与生成、从静态知识存储向动态记忆学习、从通用模型向垂直领域深度适配的路径演进。。本文将系统梳理大模型技术的发展历程、核心技术、垂域化应用及未来趋势,为理解这一技术范式提供全景视角。原创 2025-12-31 08:06:02 · 1058 阅读 · 0 评论 -
人工智能、机器学习与AIGC研发领域术语全解析
人工智能、机器学习与AIGC研发领域已发展出丰富的术语体系,涵盖基础概念、技术细节、应用领域和伦理安全等多个方面。随着AI技术的不断发展,其术语体系也在持续演进,新的概念和方法不断涌现。从基础概念来看,人工智能和机器学习是相互关联又相互区别的领域。人工智能是更广泛的概念,涵盖各种模拟人类智能的方法;机器学习则是实现人工智能的核心技术路径,通过数据驱动的方式让机器具备学习能力。从技术细节来看,机器学习算法可分为监督学习、无监督学习和强化学习三大类,每类算法又有多种具体实现。原创 2025-12-09 08:23:05 · 1270 阅读 · 0 评论 -
【译文】DeepSeek-OCR:上下文光学压缩
本文提出DeepSeek-OCR系统,探索通过视觉模态压缩长文本的可行性。该系统包含DeepEncoder和DeepSeek3B-MoE解码器,能在高分辨率输入下保持低激活状态和高效压缩。实验显示:压缩比10倍时OCR精度达97%,20倍时保持60%。在OmniDocBench基准测试中,仅用100视觉令牌即超越现有方案。单张A100显卡每日可生成20万页训练数据,显著提升LLM/VLM训练效率。研究为长文本压缩和记忆机制提供了新思路,代码与模型已开源。原创 2025-10-30 07:59:59 · 1231 阅读 · 0 评论 -
大型语言模型的内在局限性:从原理到应用的系统性剖析
摘要: 本文系统性剖析了大型语言模型(LLMs)的理论局限性。研究表明,Transformer架构的自注意力机制本质是相关性建模工具,而非逻辑推理模块;自回归生成范式使模型成为序列概率估算器,而非事实核查系统。这些底层约束导致模型存在事实幻觉、逻辑脆弱、知识静态等固有缺陷。在医疗、法律等关键领域,这些缺陷可能引发严重风险。文章指出,单纯扩大模型规模无法解决这些根本问题,未来需探索神经符号结合等新范式。研究为理解LLMs能力边界提供了理论框架,对安全应用具有重要指导意义。原创 2025-10-08 09:00:00 · 919 阅读 · 0 评论 -
自注意力机制(Self-Attention)的深度解析:从原理到应用
摘要: 自注意力机制是深度学习的革命性技术,尤其在自然语言处理(NLP)中成为Transformer等模型的核心。它通过计算序列元素间的关联性,解决了传统RNN的并行计算受限和长距离依赖问题。其核心是查询(Query)、键(Key)、值(Value)的交互:通过点积相似度计算权重,加权聚合信息生成输出。缩放因子($\sqrt{d_k}$)确保梯度稳定性,而多头机制(Multi-Head Attention)则扩展模型关注不同子空间的能力。尽管自注意力具有并行性和高效捕捉长距离依赖的优势,但其计算复杂度为$O原创 2025-10-07 19:43:45 · 1348 阅读 · 0 评论 -
突破规模瓶颈的密钥:混合专家模型(MoE)的架构演进与应用
混合专家模型(MoE)通过条件计算和稀疏激活机制,将大模型参数量与计算成本解耦,成为构建高效大语言模型的关键技术。MoE层由专家网络和门控网络组成,仅激活部分专家处理输入,显著降低计算量。从Google的Switch Transformer到DeepSeek-V2,MoE不断演进,通过Top-k路由、负载均衡优化等提升性能。尽管MoE面临内存占用和通信开销等挑战,创新技术如多头隐注意力(MLA)有效缓解了这些问题。未来,MoE将继续推动大模型发展,在智能路由、硬件协同设计等方面具有广阔前景。原创 2025-10-03 20:21:59 · 1420 阅读 · 0 评论 -
大语言模型中的“推理”:基本原理与实现机制解析
本文系统阐释了大语言模型(LLMs)推理的核心概念与技术原理。首先界定推理是训练完成后基于固定参数的文本生成过程,区别于模型训练阶段。其érore数学基础是自回归语言模型,通过条件概率分解实现 intervening 生成。关键解码策略包括贪心搜索、束搜索和随机采样(温度、Top-k/Top-p),用于平衡生成质量与多样性。工程实现面临内存和计算挑战,需 缓存、量化、剪枝等技术优化推理效率。总结指出LLMs推理是结合概率统计与工程优化的复杂系统,其理解对模型应用发展至关重要。原创 2025-10-02 20:20:46 · 1605 阅读 · 0 评论 -
从“Attention Is All You Need”到万物皆可“生成”:Transformer架构的革命与演进
另一方面,为了解决巨大模型的训练和推理成本,**专家混合(Mixture of Experts, MoE)**等架构被提出,如Mixtral模型,它通过在推理时只激活部分“专家”网络,实现了在保持强大性能的同时,大幅提升效率。的论文,这篇论文的名字本身就极具颠覆性。看到句子中的所有其他词(“机器人”、“电池”等),并通过一个计算过程,动态地判断出“机器人”这个词对理解“它”的意义最为重要,从而赋予其最高的“注意力权重”。等,试图在保持性能的同时,实现线性复杂度的计算,这可能成为下一代大模型的潜在方向。原创 2025-09-30 08:00:00 · 872 阅读 · 0 评论 -
LLM(17):计算所有输入 token 的注意力权重
张量中的每个元素代表每对输入之间的注意力分数,正如图 3.11 中看到的那样。请注意,该图中的值是经过归一化的,这就是它们与前一个张量中未归一化的注意力分数不同的原因。如图 3.11 所示,到目前位置,已经计算了输入中的第二个词元的注意力权重和上下文向量,接下来将扩展这一计算过程,为所有输入计算注意力权重和上下文向量。在计算前述的注意力分数张量时,使用了 Python 中的 for 循环。是一个二维张量(例如,形状为 [行, 列]),它将在列上进行归一化,使得每一行的值(在列维度上求和)总和为 1。原创 2025-05-05 09:48:34 · 893 阅读 · 0 评论 -
LLM(16):计算查询词元的上下文向量
自注意力(self-attention)中,如何计算查询词元的上下文向量,是self-attention中的重点。本文详细阐述之。原创 2025-05-04 10:34:40 · 1084 阅读 · 0 评论 -
LLM(15):捕捉数据依赖关系的注意力机制
需要注意的是,此图展示了注意力背后的基本思想,并未具体描绘 Bahdanau 机制的精确实现,该机制是一种 RNN 方法,超出了这里的范围。因此,研究人员在 2014 年开发了 Bahdanau 注意力机制(以相关论文的第一作者命名),该机制改进了编码器-解码器 RNN,使得解码器可以在每个解码步骤中选择性地访问输入序列的不同部分,如图 3.5 所示。自注意力是 transformer 中的一种机制,通过允许序列中的每个位置与其他所有位置进行交互并衡量其重要性,从而计算出更高效的输入表示。原创 2025-04-10 08:05:51 · 639 阅读 · 0 评论 -
LLM(14):模型的长序列问题
如果你不熟悉 RNNs,不用担心——不需要详细了解 RNN 的工作原理就能跟随此处的讨论,这里的重点放在编码器-解码器的一般概念上。编码器在每一步更新其隐藏状态(隐藏层中的内部值),试图将整个输入句子的意思传给最后一个隐藏状态中,如图 3.4 所示。虽然我们不需要了解这些编码器-解码器结构的 RNN 的内部工作原理,但这里的关键思想是,编码器部分将整个输入文本处理成一个隐藏状态(记忆单元)。编码器-解码器 RNN 的一个重大局限性在于,在解码阶段,RNN 无法直接访问编码器中较早的隐藏状态。原创 2025-04-08 08:49:35 · 522 阅读 · 0 评论 -
LLM(13):词编码后的位置
解决词嵌入向量中不同位置的词的 token 在向量中位置相同的问题原创 2025-04-04 10:32:11 · 1318 阅读 · 0 评论 -
LLM(12):创建 token 嵌入
为大模型训练准备 token 嵌入向量原创 2025-03-30 14:37:49 · 1465 阅读 · 0 评论 -
LLM(11):使用滑动窗口进行数据采样
如图 2.13 所示。)指的是 LLM 将接收的 input,而箭头右边的 token ID 代表 LLM 应预测的 target 的 token ID。内存占用:较小的batch size意味着在内存中同时处理的数据量减少,这对于内存有限的设备较为友好,可以避免因内存不足而导致的程序崩溃,还可能允许使用更大的模型或更复杂的网络结构。如果我们比较第一和第二批次,可以看到第二批次的 token ID 向右移动了一位(例如,第一批次输入中的第二个 ID 是 367,这是第二批次输入的第一个 ID)。原创 2025-03-26 11:09:04 · 1614 阅读 · 0 评论 -
LLM(10):字节对编码(BPE)
介绍一种BPE方案原创 2025-03-25 15:34:55 · 878 阅读 · 0 评论 -
LLM(9):处理特殊 token
继续处理 token,本文介绍一种重要的方法原创 2025-03-24 11:31:29 · 1401 阅读 · 0 评论 -
LLM(8):将 token 转换为 token ID
然后,这些单个的 token 会被按字母顺序排序,并去除重复的 token,然后聚合到一个词汇表中,该词汇表定义了从每个唯一的 token 到一个唯一整数值的映射。从一个新的文本样本开始,我们对文本进行 token 化,并使用词汇表将文本 token 转换为 token ID。为此,可以创建词汇表的逆版本,该逆版本将 token ID 映射回相应的文本 token。因此,它不包含在词汇表中。方法接收样本文本,将其分割成单独的 tokens,并通过词汇表将这些 tokens 转换为 token IDs。原创 2025-03-21 09:28:00 · 922 阅读 · 0 评论 -
LLM(7):文本分词 token 化
将文本转换为 token 的简单示例原创 2025-03-20 09:11:55 · 1121 阅读 · 0 评论 -
LLM(6):理解词嵌入
解释词嵌入的含义和作用原创 2025-03-19 09:02:49 · 1107 阅读 · 0 评论 -
LLM(5):了解 GPT 架构
概述 GPT 架构原创 2025-03-18 08:27:16 · 1070 阅读 · 0 评论 -
LLM(4):了解训练大模型的数据集
简要介绍用于训练大模型的数据集特点。原创 2025-03-17 08:30:50 · 988 阅读 · 0 评论 -
LLM(3): Transformer 架构
大多数现代的大规模语言模型(LLMs)依赖于 Transformer 架构,这是一种在 2017 年的论文《注意力就是你所需要的》(https://arxiv.org/abs/1706.03762)中提出的深度神经网络架构。为了理解 LLMs,必须要先了解最初的 Transformer,它是为机器翻译任务而开发的,用于将英文文本翻译成德文和法文。简化版的 Transformer 架构如图 1.4 所示。图 1.4简化版的原始 Transformer 架构图示,它是一个用于语言翻译的深度学习模型。原创 2025-03-16 12:56:58 · 1367 阅读 · 0 评论 -
LLM(2):准备构建 LLM
在一文中,对 LLM 做了初步介绍,本文接续前一篇文章的内容,简要介绍 LLM 的应用和构建过程。原创 2025-03-14 10:49:57 · 2780 阅读 · 0 评论 -
LLM(1):了解大语言模型
在 LLMs 出现之前,传统方法擅长于像电子邮件垃圾信息分类和简单的模式识别这样的分类任务,这些任务可以通过手工编写的规则或更简单的模型来捕捉。现代 LLMs 与早期 NLP 模型之间的另一个重要区别是,早期的 NLP 模型通常是为特定任务设计的,比如文本分类、语言翻译等。LLMs 背后的成功可以归因于许多 LLMs 所基于的 transformer 架构以及用于训练 LLMs 的巨大数据量,这使它们能够捕捉到各种语言细微差别、上下文和模式,这些如果手动编码将极具挑战性。原创 2025-03-12 12:46:56 · 537 阅读 · 0 评论
分享