咕噜咕噜玛卡巴卡-CSDN博客

原创大模型学习-实践篇（二）简单尝试RAG

大模型学习-基础篇大模型学习-实践篇笔者在尝试动手实践RAG前，先了解大模型的应用的框架和基础模型理论，熟悉了模型微调和部署的相关知识。然后，利用开源大模型和成熟的深度学习库本地搭建和部署了LLMs。接着，学习向量数据库和文档切分的相关理论知识。所以现在应该开始动手，学习本地如何部署一个简单的RAG应用。本章节我们直接使用qwen-agent来实现相关的调用，关于本文的数据和部分代码来自于另一位博主的博客，感谢分享。首先，我们需要新建一个python环境：然后，安装Qwen-agent：因为我们上一

2024-09-07 15:32:35 282

原创大模型学习-基础篇（七）KV cache 简单了解

关于KV cache的改进，也许能决定大模型api应用价格是否白菜化。目前deepseek声称能做到1元/1B Tokens，笔者之前做过一些数据集的自动标注工作，大概2万条数据集，句子平均50个tokens，感觉数据量加起来也刚好到1B的Tokens。如果以1元/1B Tokens的价格，标注100万条数据也才50元，期待未来吧。

2024-09-06 17:06:32 779

原创大模型学习-基础篇（六）：LoRA的版本改进

总的来说，LoRA改进的方向主要还是逼近全量微调的结果去努力，无论从权重初始化，梯度下降策略，模型层更新策略等角度出发，本质上都是让新的权重更新趋势拟合全量微调的过程。

2024-09-06 13:22:02 754

原创大模型学习-基础篇（五）大模型应用的知识串联

作为一个专业研究气候变化的科学家（CR：能力与角色），请基于当前的科学共识和最新的研究数据（I：洞察），撰写一篇详细且科学严谨的报告（S：陈述），内容需涵盖气候变化的原因、影响以及可能的解决方案。作者假设场景：有一大堆的待测试的问题（没有标注，不知道正确答案和推理过程），如何利用 LLM 和无标注问题集合，在不进行手工编写CoT的情况下，提升LLM回答这些模型的质量？超过该阈值后，参数量大的模型达到性能巅峰，而参数量小的模型达到性能瓶颈，参数量大的模型优于参数量小的模型。

2024-09-05 22:08:41 1029

原创大模型学习-基础篇（四）KV cache、SwiGLU和GeGLU

大模型学习-基础篇大模型学习-实践篇上一个章节，我们介绍了几个具有代表性的基础大模型。但是在上一个章节的内容中，我们还缺少对大模型使用的激活函数改进和attention机制优化进行介绍。这一章节，我们补充激活函数和attention机制优化的内容。激活函数是将线性近似改变为非线性的重要计算单元，如果采用纯线性层进行叠加，那么整个模型无论如何增加深度，都可以写作线性表示的函数，那么模型对复杂特征和信息的表征与拟合能力会受到限制。f(x)=max(0,x)f(x)=max(0,x)f(x)=max(0,x)

2024-09-05 16:47:40 724

原创大模型学习-基础篇（三）初遇LLMs的模型结构

在学习大模型时，要注意实践和理论结合，很多有趣的开放平台和开源框架都可以自己尝试玩一玩。尝试本地部署以后微调跑一跑，可以在枯燥的理论之余获得额外的乐趣。

2024-09-05 15:05:35 936

原创大模型学习-基础篇（二）RoPE旋转位置编码

fqmcosmθ−sinmθsinmθcosmθq0q1fqmcosmθsinmθ−sinmθcosmθq0q1以及三个关键的理解：1.不同位置，转角不一样。转角差包含了相对位置信息。2.维度：分成高频和低频高频：短距离低频：长距离3.高频外推性强，低频插值能力强。b站上有相关的介绍视频，可以参考观看，老师讲的很好。

2024-09-05 13:02:34 1002

原创大模型学习-面试篇（一）LLMs通用知识

大模型学习-基础篇大模型学习-实践篇大模型学习-理论篇大模型学习-踩坑篇大模型学习-面试篇

2024-09-04 18:43:46 148

原创大模型学习-实践篇（一）：简单尝试

大模型学习-基础篇大模型学习-实践篇大模型学习-理论篇大模型学习-踩坑篇大模型学习-面试篇本地部署LLMs运行环境，能够完成大模型的推理、训练、量化的部署。我是在服务器上进行部署的，相关配置如下：服务器系统：CentOS 7.7存储：约40T显卡：A800 * 2（单卡显存 80 GB）网络：校园网虚拟环境：docker + minicondamodelscope提供了部署所需的全部详细文档，这里是官网链接：https://www.modelscope.cn/docs/Qwen1.5%

2024-09-04 17:26:34 1052 1

原创大模型学习-基础篇（一）：Attention复杂度计算和PE介绍

此系列记录大模型学习的经验总结，包括且不限于：LLM相关的知识、理论、论文、部署、微调、量化等，提示：以下是本篇文章正文内容，下面案例可供参考此章节介绍了Transformers库的结构和相关模块。

2024-09-04 14:31:07 305

qq_43671025的博客