自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 大模型学习-基础篇(四)KV cache、SwiGLU和GeGLU

大模型学习-基础篇大模型学习-实践篇上一个章节,我们介绍了几个具有代表性的基础大模型。但是在上一个章节的内容中,我们还缺少对大模型使用的激活函数改进和attention机制优化进行介绍。这一章节,我们补充激活函数和attention机制优化的内容。激活函数是将线性近似改变为非线性的重要计算单元,如果采用纯线性层进行叠加,那么整个模型无论如何增加深度,都可以写作线性表示的函数,那么模型对复杂特征和信息的表征与拟合能力会受到限制。f(x)=max(0,x)f(x)=max(0,x)f(x)=max(0,x)

2024-09-05 16:47:40 136

原创 大模型学习-基础篇(三)初遇LLMs的模型结构

在学习大模型时,要注意实践和理论结合,很多有趣的开放平台和开源框架都可以自己尝试玩一玩。尝试本地部署以后微调跑一跑,可以在枯燥的理论之余获得额外的乐趣。

2024-09-05 15:05:35 483

原创 大模型学习-基础篇(二)RoPE旋转位置编码

fqmcosmθ−sinmθsinmθcosmθq0q1fqmcosmθsinmθ​−sinmθcosmθ​q0​q1​​以及三个关键的理解:1.不同位置,转角不一样。转角差包含了相对位置信息。2.维度:分成高频和低频高频:短距离低频:长距离3.高频外推性强,低频插值能力强。b站上有相关的介绍视频,可以参考观看,老师讲的很好。

2024-09-05 13:02:34 685

原创 大模型学习-理论篇(一)

大模型学习-基础篇大模型学习-实践篇大模型学习-理论篇大模型学习-踩坑篇大模型学习-面试篇

2024-09-04 18:43:46 77

原创 大模型学习-实践篇(一):简单尝试

大模型学习-基础篇大模型学习-实践篇大模型学习-理论篇大模型学习-踩坑篇大模型学习-面试篇本地部署LLMs运行环境,能够完成大模型的推理、训练、量化的部署。我是在服务器上进行部署的,相关配置如下:服务器系统:CentOS 7.7存储:约40T显卡:A800 * 2(单卡显存 80 GB)网络:校园网虚拟环境:docker + minicondamodelscope提供了部署所需的全部详细文档,这里是官网链接:https://www.modelscope.cn/docs/Qwen1.5%

2024-09-04 17:26:34 645

原创 大模型学习-基础篇(一):Attention复杂度计算和PE介绍

此系列记录大模型学习的经验总结,包括且不限于:LLM相关的知识、理论、论文、部署、微调、量化等,提示:以下是本篇文章正文内容,下面案例可供参考此章节介绍了Transformers库的结构和相关模块。

2024-09-04 14:31:07 139

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除