- 博客(16)
- 收藏
- 关注
原创 模型推理 单多轮推理,gpu推理,lora推理和vllm(附代码示例)
本文介绍了大语言模型推理的基础概念与实现方法。主要内容包括:1)推理与训练的核心差异,如硬件需求、计算逻辑和运行目标不同;2)单轮与多轮推理的特点及应用场景;3)GPU推理部署策略,包括单卡、多卡和多机推理;4)Hugging Face Transformers库的两种推理方式:Pipeline API快速实现和Model+Tokenizer灵活控制。重点阐述了多轮推理的实现方法,通过维护对话历史提升交互效果,并展示了完整代码示例,包括4位量化、设备配置和提示词生成等关键技术。
2025-12-16 19:56:08
872
原创 人类反馈强化学习 奖励模型微调和RLHF微调
本文介绍了人类反馈强化学习(RLHF)中的奖励模型训练和RLHF微调流程。奖励模型训练核心是通过成对排序学习区分优质和劣质回答,包含模型初始化、数据处理、损失计算等步骤。关键点包括:1)使用LLaMA模型作为基础架构;2)通过v_head将隐藏状态映射为奖励值;3)采用logsigmoid损失函数优化排序效果。RLHF微调阶段采用演员-评论家框架,涉及4个模型协同工作:生成模型(演员)、评论模型(评论家)、参考模型和奖励模型。文中提供了完整的代码实现示例,包括数据处理、模型训练和损失计算的关键细节。
2025-12-14 22:31:25
1182
原创 基于flask手把手教你做个可以把简历发到邮箱里的官网
本文介绍了如何使用Flask框架搭建一个具有简历投递功能的官方网站。主要内容包括:1) 系统功能展示首页、关于我们、联系方式和加入我们页面,支持表单提交自动发送邮件;2) 技术实现使用Flask、Flask-WTF和Flask-Mail等依赖;3) 详细说明了HTML模板结构和静态文件组织方式;4) 演示了路由配置方法,包括GET和POST请求处理;5) 重点讲解了邮件发送功能的实现方式,包括SMTP服务器配置。文章提供了可直接复用的HTML模板代码和Python路由配置示例,适合快速搭建企业官网。
2025-12-13 18:21:52
1166
原创 人类反馈强化学习(RLHF) 从强化学习架构到监督微调
本文系统介绍了人类反馈强化学习(RLHF)的核心架构与实现方法。主要内容包括:1)强化学习基本要素与算法;2)演员-评论家架构的原理与优势;3)近端策略优化(PPO)的改进机制;4)DeepSpeed Chat的三阶段训练流程(SFT、奖励模型训练、策略优化)。文章还提供了RLHF开源数据集列表和代码实操示例,详细展示了Dahoas/rm-static数据集的读取方法。通过结合理论架构与工程实践,完整呈现了RLHF从原理到落地的技术路径。
2025-12-11 19:58:39
1109
原创 模型微调 从数据集和数据集处理到微调模型
本文介绍了模型监督微调的关键流程与方法,重点包括:1)监督微调的基本原理与实施步骤;2)开源数据集资源(如SQuAD、Alpaca等)及其格式转换方法;3)Hugging Face的datasets库使用技巧,涵盖数据加载、预处理和缓存等功能。文章还详细说明了不同数据集的结构特点和处理方式,为模型微调实践提供了实用指导。
2025-12-10 22:04:21
930
原创 模型训练 llama模型训练与微调项目实战
本文介绍了如何在小资源环境下使用4位量化和LoRA技术微调Llama-2模型。主要内容包括:1) 加载4位量化的Llama-2基础模型;2) 配置LoRA参数并注入模型;3) 预处理SQuAD问答数据集;4) 设置训练参数并启动训练流程。项目采用peft、datasets和transformers库,通过量化降低显存需求,利用LoRA实现轻量级微调,适用于问答任务适配。代码框架清晰,包含模型加载、参数配置、数据处理和训练评估全流程,为资源受限环境下的大模型微调提供了实用解决方案。
2025-12-09 20:01:11
853
原创 模型训练 从分词处理到量化技术和lora
本文介绍了模型训练的三大阶段:从零开始的预训练、增量训练和微调训练,重点阐述了增量训练在已有大模型基础上扩展知识的优势。详细讲解了Hugging Face训练环境的使用方法,包括Transformers库的核心功能和BERT文本分类的完整代码实现。特别强调了分词处理的关键技术,如Input IDs、特殊标记的作用,以及AutoTokenizer的配置和使用技巧,并提供了具体示例展示分词过程和输出格式。全文内容聚焦于大语言模型训练的核心环节,为开发者提供了实用的技术指导和代码参考。
2025-12-08 21:20:27
1120
原创 大语言模型 从主流大模型到llama权重文件解析和参数计算
本文介绍了主流大语言模型GPT和Llama的特点与训练方法。GPT系列基于Transformer架构,具有强大的文本生成能力;Llama是Meta开源的模型,使用公开数据训练,性能接近GPT-3.5。重点解析了Llama 2的训练过程、权重文件结构及参数计算方法,包括预训练数据、监督微调和RLHF优化。提供了Llama 2权重文件夹的详细目录说明,并展示了Python代码示例用于解析HF格式权重文件,计算模型参数数量。
2025-12-07 10:06:03
974
原创 transformer模型详解 手把手教你做个llama模型 Transformer模块实战
本文介绍了PyTorch中nn.Transformer模块的实现与应用。nn.Transformer包含编码器(TransformerEncoder)、解码器(TransformerDecoder)及多层注意力机制组件,适用于序列任务。文章详细解析了各核心模块的功能,包括多头注意力机制(MultiheadAttention)和层归一化等。通过代码示例展示了如何快速创建标准Transformer模型(6层编码器+6层解码器),并特别介绍了纯解码器架构的实现方法(如Llama风格),包含词嵌入层、Transfo
2025-12-06 18:57:07
1161
原创 transformer架构详解 用llama2源码理解tranformer和代码实操
本文解析了Transformer架构中的残差连接与层归一化机制,也介绍了损失函数和掩码,并给出代码实例,结合Llama 2源码进行说明。主要内容包括: 残差连接通过;输入+网络输出"结构缓解深层网络训练难题 层归一化改进为预归一化(Pre-Norm)方案,成为主流设计 Llama 2采用RMSNorm变体代码层面展示了TransformerBlock中残差连接与RMSNorm的具体实现,也有掩码实操内容,实践于理论相结合
2025-12-06 18:01:55
885
原创 transformer模型详解 从分词到自注意力机制
自注意力机制让序列中的每个Token(如单词、字符)都能“关注”到序列中所有其他Token,并根据关联强度分配权重,最终生成融合全局上下文的Token表示。通俗理解:好比阅读时,每个词都会“回头看”全文,重点关注与自己语义相关的词(如“他”会关注前文提到的人名),忽略无关词。核心优势:并行计算(O(n²)时间复杂度,n为序列长度),效率远超RNN的O(n)串行;长距离依赖捕捉能力强(无距离限制,不像CNN受感受野约束);自适应权重分配(通过数据学习依赖关系,而非人工设计)。
2025-12-05 17:00:00
1055
原创 pytorch开发基础 实操用torch.nn构建神经网络(附代码)
本文介绍了PyTorch中构建神经网络的核心组件和使用方法。主要内容包括:1) torch.nn模块的核心组件(层、损失函数、工具等)及其应用;2) 优化器torch.optim的使用;3) 训练、验证和测试的完整流程;4) 通过单层感知机实现二分类任务的实操示例。文章详细讲解了如何利用PyTorch内置模块构建神经网络模型,包括模型定义、损失函数选择、优化器配置以及训练过程的关键步骤,并提供了完整的代码实现和运行结果。
2025-12-04 19:40:24
1174
原创 pytorch开发基础 从张量到梯度运算和反向传播
PyTorch是当前深度学习研究与应用开发的主流框架之一,自2017年发布以来,凭借使用简单、动态计算图等特性快速崛起,成为TensorFlow的核心竞争对手。需要提前下载好cuda(nvida支持)和pytorchcuda官网:https://developer.nvidia.com/cuda-downloadspytorch官网: https://pytorch.org/或者用pip。
2025-12-03 21:22:15
1018
原创 深度学习基础:从损失函数到简易神经网络代码实操
本文系统介绍了深度学习的基础知识,包括损失函数、模型评估、正则化方法、Softmax函数和神经网络原理。重点讲解了均方误差和交叉熵两类损失函数的选择标准,分析了偏差与方差对模型性能的影响,并提供了过拟合/欠拟合的解决方案。文章详细阐述了L1/L2正则化、Dropout等关键技术,解释了Softmax函数在多分类任务中的作用。最后通过Python代码实现了一个包含输入层、隐藏层和输出层的简易神经网络,演示了前向传播和反向传播的核心流程。这些基础知识为深度学习实践提供了重要指导。
2025-12-02 22:16:48
1330
原创 深度学习基础:从感知机到激活函数和简单算法解析(附代码实现)
本文系统介绍了深度学习的基础知识,从感知机原理到神经网络训练方法。主要内容包括:1)单层感知机的结构、数学模型和训练逻辑;2)从单层到多层感知机的演进,解决线性不可分问题;3)权重更新机制和梯度下降算法;4)激活函数的作用与常见类型(Sigmoid、tanh、ReLU)。通过Python代码示例演示了前馈传播和反向传播的实现过程,帮助读者理解神经网络的基本工作原理。文章强调激活函数对引入非线性的关键作用,并分析了不同激活函数的优缺点,为深度学习入门提供了系统指导。
2025-12-01 22:04:36
735
原创 手把手制作基于vue的前端商城网站(资源免费,审核可能需要点时间)
本文介绍了一个基于Vue3技术栈开发的网易严选风格电商前端模板项目。该项目采用前后端分离架构,前端使用Vue3+Vuex+VueRouter+Less构建,后端通过Node.js+Express模拟接口数据。系统包含完整的电商功能模块,如商品展示、分类导航等,并实现了组件化开发、状态管理、路由配置等核心功能。项目提供了详细的目录结构说明和运行指南,支持快速部署和二次开发,适用于电商项目原型开发、毕业设计、商业项目等多种场景。该项目具有模块解耦、复用性强、易扩展等特点,为开发者提供了一个高质量的前端解决方案。
2025-11-30 12:08:17
985
基于vue的前端商城网站,设计仿照网易严选,可自由与后端对接
2025-11-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅