![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能
文章平均质量分 82
人工智能相关技术
深度学习
神经网络
大模型
黎明沐白
这个作者很懒,什么都没留下…
展开
-
BERT模型
BERT模型是由谷歌团队于2019年提出的 Encoder-only 的 语言模型,发表于NLP顶会ACL上。原文题目为:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》在前大模型时代,BERT模型可以算是一个参数量比较大的预训练语言模型。在如今的大模型时代,LLM大多遵循GPT提出的Decoder-only的模型范式。BERT也可以算是时代的眼泪了。原创 2024-08-03 18:47:48 · 751 阅读 · 0 评论 -
llama-2大模型结构
LLama-2大模型的结构梳理,以7B为例原创 2024-07-29 14:39:46 · 391 阅读 · 0 评论 -
深度学习中的非线性函数
对一个样本所有特征计算均值和方法,然后对样本进行归一化。LLama 模型 引入的 RMSNorm。向量维度为H,g、b为可学习的两个参数。层归一化,稳定训练并提升模型收敛性。为 Sigmoid函数。原创 2024-07-28 10:55:32 · 725 阅读 · 0 评论 -
OPT 大语言模型(Large Language Model)结构
大语言模型follow GPT的做法,其基本组成结构是Decoder-only的Transformer block,多个Transformer Block堆叠在一起;不同数量、不同Head、不同隐藏层维度构成了不同参数量的大模型(也即模型跟着的后缀,比如,6.7B);预训练模型参数的数据类型(大模型的参数一般都为半精度fp16,而非单精度浮点数fp32)大模型中通常采用的KV cache机制体现在图中的:past_key_value;以OPT-6.7b模型为例,梳理OPT大模型的网络结构;原创 2024-07-28 16:52:44 · 265 阅读 · 0 评论