自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 问答 (2)
  • 收藏
  • 关注

原创 LLMs组件系列:Attention排列不变性与位置编码(超详细)

Transformer注意力可并行计算的特性既是其相较于RNN的优势,也使其丢失了时间步语义信息,所以位置编码 (positional encodings) 是Transformer这种并行结构必须要有的,否则机器就会已读乱回。但位置编码原理是什么,工程上怎么实现呢?网上有许多讲解位置编码的方案,但很多都为了文章篇幅而舍弃掉一些前置信息,如果没有基础看起来还是比较吃力的。为此,本文用篇幅换取详细度,介绍详细介绍了当前四种主流的位置编码方案,包看懂的。

2024-08-25 15:29:09 1934

原创 大模型LLMs组件系列:激活函数

💡 正如在全连接神经网络那篇文章中介绍Perception时提到的,人工神经网络中的激活函数(activation function)是对生物神经元达到膜电位阈值后发射常数脉冲的模拟,因此从神经生物学视角来看,1958年的感知机Perception中使用的非线性的0-1阶跃/符号函数是最理想的,但在数学层面却不是。阶跃函数不连续不可导,在BP反向传播中会带来巨大的计算问题;此外,对于线性神经网络而言,激活函数又承载着帮助线性结构拟合非线性规律、规范输出范围的功能,还得重点关注梯度问题。

2024-08-22 22:10:10 616

原创 大模型LLMs组件系列:大模型组件概述

Transformer是Google在2017年底写的论文中举例展示的Seq2Seq翻译模型的名称,该翻译模型采用了Encoder-Deocoder架构,但相较于之前以RNN为内核的模型,Transformer的核心卖点是注意力Attention机制,基本结构是Transformer Block Stack堆叠,每个Block中都有一组Attention模块(负责注意力)和MLP模块(负责记忆和表示)。很快,该架构掀起了深度学习的新浪潮,此后拥有类似注意力机制的模型都叫做Transformer架构。

2024-08-22 19:35:04 674

原创 大模型LLMs组件系列:全连接网络FCN与典型代表MLP

如果你也疑惑:大模型中Attention模块后的模块到底叫全连接网络FCN,多层感知机MLP,还是前馈网络FNN,怎么不同大模型工程文件里对这层的命名都不统一?这个层和线性层有什么区别?这个模块有什么作用?激活函数又出现在大模型中哪里呢?激活函数的不同变体以及主流开源大模型的选择是什么?混合专家MoE是怎么实现的?那么这篇文章就是为你而写的。

2024-08-22 16:43:00 880

原创 最全AI简史(下):后深度学习时代(大模型时代)

💡 铺垫这么多终于到大模型章节了,前面两篇文章分别就人工智能和深度学习的发展历史进行了介绍,大致可以理解为:20世纪的人工智能发展百花齐放、坎坷中前进,进入21世纪后深度学习很快成为人工智能中的显学,2020年后则以大语言模型为代表范式。这当然不是说一些逻辑规则的、概率统计机器学习的甚至是非Transformer的深度学习结构已经逐渐推出历史舞台,相反大家各自在自己的领域依然是SOTA,也与大模型有许多交汇的地方。

2024-08-21 21:41:29 2094

原创 大模型LLMs组件系列:向量表示与词嵌入Embedding

大模型中的Embedding要做的就是将分词后以整数index标识的最小词元嵌入到一个语义空间中。什么是语义空间?为什么要嵌入语义空间呢?这和经典机器学习的特征工程有什么关系?有哪些词向量的表征形式?词嵌入模型和大模型的Embedding是一回事儿吗?特征和表示学习有什么关系?如果你也有类似疑问,Ok,下面进入正题。

2024-08-21 21:01:18 1057

原创 大模型LLMs组件系列:深入浅出解析注意力Attention机制

💡 注意力机制萌芽于上世纪80年代,最早是CNN视觉检测领域的技术,灵感来源于生物注意力,目的是从纷繁的信息中提取高价值信息,舍弃低价值信息。2014年,注意力机制被用于NLP领域,并于2017年开始作为Transformer架构的核心机制几乎一统NLP领域方法论。

2024-08-20 19:09:20 865

原创 大模型LLMs组件系列:分词法Tokenization的起源与发展

分词Tokenization和嵌入Embedding(表示学习Representation Learning中的Word Representation)是将符号系统的自然语言转变为数值系统以供计算机处理的前提。而自然语言具有组合复杂、长短不定等灵活特性,因此首先必须对这一符号系统进行切分,这一切分的最小单元就是词元,也就是耳熟能详的token。将长且复杂的自然语言文本按照某一策略分割为最小词元的集合后依然不够,还需要对其进行数值化,以便计算机处理。

2024-08-19 14:10:08 865

原创 最全AI简史(中):深度学习时代

2015年,深度学习三巨头Yann LeCun、Yoshua Bengio、Geoffrey Hinton在Nature杂志上发表深度学习综述论文,并与2018年同时获得图灵奖,侧面展现了深度学习对当今时代带来的巨大影响。

2024-08-18 21:17:41 1109

原创 最全AI简史(上):前深度学习时代

💡 本系列内容主要是AI发展的总体脉络,包括早期历史和以及20世纪到如今的里程碑事件和技术,核心是人工智能热潮的三起两落。为了更好地组织内容,AI简史将分为上、中、下三篇,分别对应前深度学习时代、深度学习时代、后深度学习时代(大模型时代)。本系列内容旨在梳理人工智能的发展脉络,明晰里程碑技术,尝试总结其规律,既是出于个人兴趣,也是为自己以后的研究和工作提供一些更全面的视野。内容中里程碑事件来源于网络内容整理,在整理过程中常常会发现在时间上有多种不同的说法的情况,已尽力辨别,如有错误,希望指出。

2024-08-15 14:46:27 715

原创 ChatGLM2-6B模型推理流程和模型架构详解

ChatGLM2-6B模型结构拆解和推理流程,含具体的矩阵维度拆解。

2023-10-28 13:54:35 14654 49

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除