自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 大模型学习-实践篇(二)简单尝试RAG

大模型学习-基础篇大模型学习-实践篇笔者在尝试动手实践RAG前,先了解大模型的应用的框架和基础模型理论,熟悉了模型微调和部署的相关知识。然后,利用开源大模型和成熟的深度学习库本地搭建和部署了LLMs。接着,学习向量数据库和文档切分的相关理论知识。所以现在应该开始动手,学习本地如何部署一个简单的RAG应用。本章节我们直接使用qwen-agent来实现相关的调用,关于本文的数据和部分代码来自于另一位博主的博客,感谢分享。首先,我们需要新建一个python环境:然后,安装Qwen-agent:因为我们上一

2024-09-07 15:32:35 282

原创 大模型学习-基础篇(七)KV cache 简单了解

关于KV cache的改进,也许能决定大模型api应用价格是否白菜化。目前deepseek声称能做到1元/1B Tokens,笔者之前做过一些数据集的自动标注工作,大概2万条数据集,句子平均50个tokens,感觉数据量加起来也刚好到1B的Tokens。如果以1元/1B Tokens的价格,标注100万条数据也才50元,期待未来吧。

2024-09-06 17:06:32 779

原创 大模型学习-基础篇(六):LoRA的版本改进

总的来说,LoRA改进的方向主要还是逼近全量微调的结果去努力,无论从权重初始化,梯度下降策略,模型层更新策略等角度出发,本质上都是让新的权重更新趋势拟合全量微调的过程。

2024-09-06 13:22:02 754

原创 大模型学习-基础篇(五)大模型应用的知识串联

作为一个专业研究气候变化的科学家(CR:能力与角色),请基于当前的科学共识和最新的研究数据(I:洞察),撰写一篇详细且科学严谨的报告(S:陈述),内容需涵盖气候变化的原因、影响以及可能的解决方案。作者假设场景:有一大堆的待测试的问题(没有标注,不知道正确答案和推理过程),如何利用 LLM 和无标注问题集合,在不进行手工编写CoT的情况下,提升LLM回答这些模型的质量?超过该阈值后,参数量大的模型达到性能巅峰,而参数量小的模型达到性能瓶颈,参数量大的模型优于参数量小的模型。

2024-09-05 22:08:41 1029

原创 大模型学习-基础篇(四)KV cache、SwiGLU和GeGLU

大模型学习-基础篇大模型学习-实践篇上一个章节,我们介绍了几个具有代表性的基础大模型。但是在上一个章节的内容中,我们还缺少对大模型使用的激活函数改进和attention机制优化进行介绍。这一章节,我们补充激活函数和attention机制优化的内容。激活函数是将线性近似改变为非线性的重要计算单元,如果采用纯线性层进行叠加,那么整个模型无论如何增加深度,都可以写作线性表示的函数,那么模型对复杂特征和信息的表征与拟合能力会受到限制。f(x)=max(0,x)f(x)=max(0,x)f(x)=max(0,x)

2024-09-05 16:47:40 724

原创 大模型学习-基础篇(三)初遇LLMs的模型结构

在学习大模型时,要注意实践和理论结合,很多有趣的开放平台和开源框架都可以自己尝试玩一玩。尝试本地部署以后微调跑一跑,可以在枯燥的理论之余获得额外的乐趣。

2024-09-05 15:05:35 936

原创 大模型学习-基础篇(二)RoPE旋转位置编码

fqmcosmθ−sinmθsinmθcosmθq0q1fqmcosmθsinmθ​−sinmθcosmθ​q0​q1​​以及三个关键的理解:1.不同位置,转角不一样。转角差包含了相对位置信息。2.维度:分成高频和低频高频:短距离低频:长距离3.高频外推性强,低频插值能力强。b站上有相关的介绍视频,可以参考观看,老师讲的很好。

2024-09-05 13:02:34 1002

原创 大模型学习-面试篇(一)LLMs通用知识

大模型学习-基础篇大模型学习-实践篇大模型学习-理论篇大模型学习-踩坑篇大模型学习-面试篇

2024-09-04 18:43:46 148

原创 大模型学习-实践篇(一):简单尝试

大模型学习-基础篇大模型学习-实践篇大模型学习-理论篇大模型学习-踩坑篇大模型学习-面试篇本地部署LLMs运行环境,能够完成大模型的推理、训练、量化的部署。我是在服务器上进行部署的,相关配置如下:服务器系统:CentOS 7.7存储:约40T显卡:A800 * 2(单卡显存 80 GB)网络:校园网虚拟环境:docker + minicondamodelscope提供了部署所需的全部详细文档,这里是官网链接:https://www.modelscope.cn/docs/Qwen1.5%

2024-09-04 17:26:34 1052 1

原创 大模型学习-基础篇(一):Attention复杂度计算和PE介绍

此系列记录大模型学习的经验总结,包括且不限于:LLM相关的知识、理论、论文、部署、微调、量化等,提示:以下是本篇文章正文内容,下面案例可供参考此章节介绍了Transformers库的结构和相关模块。

2024-09-04 14:31:07 305

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除