一只黑鸟-CSDN博客

原创模型推理单多轮推理，gpu推理，lora推理和vllm(附代码示例)

本文介绍了大语言模型推理的基础概念与实现方法。主要内容包括：1)推理与训练的核心差异，如硬件需求、计算逻辑和运行目标不同；2)单轮与多轮推理的特点及应用场景；3)GPU推理部署策略，包括单卡、多卡和多机推理；4)Hugging Face Transformers库的两种推理方式：Pipeline API快速实现和Model+Tokenizer灵活控制。重点阐述了多轮推理的实现方法，通过维护对话历史提升交互效果，并展示了完整代码示例，包括4位量化、设备配置和提示词生成等关键技术。

2025-12-16 19:56:08 872

原创人类反馈强化学习奖励模型微调和RLHF微调

本文介绍了人类反馈强化学习（RLHF）中的奖励模型训练和RLHF微调流程。奖励模型训练核心是通过成对排序学习区分优质和劣质回答，包含模型初始化、数据处理、损失计算等步骤。关键点包括：1）使用LLaMA模型作为基础架构；2）通过v_head将隐藏状态映射为奖励值；3）采用logsigmoid损失函数优化排序效果。RLHF微调阶段采用演员-评论家框架，涉及4个模型协同工作：生成模型（演员）、评论模型（评论家）、参考模型和奖励模型。文中提供了完整的代码实现示例，包括数据处理、模型训练和损失计算的关键细节。

2025-12-14 22:31:25 1182

原创基于flask手把手教你做个可以把简历发到邮箱里的官网

本文介绍了如何使用Flask框架搭建一个具有简历投递功能的官方网站。主要内容包括：1) 系统功能展示首页、关于我们、联系方式和加入我们页面，支持表单提交自动发送邮件；2) 技术实现使用Flask、Flask-WTF和Flask-Mail等依赖；3) 详细说明了HTML模板结构和静态文件组织方式；4) 演示了路由配置方法，包括GET和POST请求处理；5) 重点讲解了邮件发送功能的实现方式，包括SMTP服务器配置。文章提供了可直接复用的HTML模板代码和Python路由配置示例，适合快速搭建企业官网。

2025-12-13 18:21:52 1166

原创人类反馈强化学习（RLHF）从强化学习架构到监督微调

本文系统介绍了人类反馈强化学习(RLHF)的核心架构与实现方法。主要内容包括：1)强化学习基本要素与算法；2)演员-评论家架构的原理与优势；3)近端策略优化(PPO)的改进机制；4)DeepSpeed Chat的三阶段训练流程(SFT、奖励模型训练、策略优化)。文章还提供了RLHF开源数据集列表和代码实操示例，详细展示了Dahoas/rm-static数据集的读取方法。通过结合理论架构与工程实践，完整呈现了RLHF从原理到落地的技术路径。

2025-12-11 19:58:39 1109

原创模型微调从数据集和数据集处理到微调模型

本文介绍了模型监督微调的关键流程与方法，重点包括：1）监督微调的基本原理与实施步骤；2）开源数据集资源（如SQuAD、Alpaca等）及其格式转换方法；3）Hugging Face的datasets库使用技巧，涵盖数据加载、预处理和缓存等功能。文章还详细说明了不同数据集的结构特点和处理方式，为模型微调实践提供了实用指导。

2025-12-10 22:04:21 930

原创模型训练 llama模型训练与微调项目实战

本文介绍了如何在小资源环境下使用4位量化和LoRA技术微调Llama-2模型。主要内容包括：1) 加载4位量化的Llama-2基础模型；2) 配置LoRA参数并注入模型；3) 预处理SQuAD问答数据集；4) 设置训练参数并启动训练流程。项目采用peft、datasets和transformers库，通过量化降低显存需求，利用LoRA实现轻量级微调，适用于问答任务适配。代码框架清晰，包含模型加载、参数配置、数据处理和训练评估全流程，为资源受限环境下的大模型微调提供了实用解决方案。

2025-12-09 20:01:11 853

原创模型训练从分词处理到量化技术和lora

本文介绍了模型训练的三大阶段：从零开始的预训练、增量训练和微调训练，重点阐述了增量训练在已有大模型基础上扩展知识的优势。详细讲解了Hugging Face训练环境的使用方法，包括Transformers库的核心功能和BERT文本分类的完整代码实现。特别强调了分词处理的关键技术，如Input IDs、特殊标记的作用，以及AutoTokenizer的配置和使用技巧，并提供了具体示例展示分词过程和输出格式。全文内容聚焦于大语言模型训练的核心环节，为开发者提供了实用的技术指导和代码参考。

2025-12-08 21:20:27 1120

原创大语言模型从主流大模型到llama权重文件解析和参数计算

本文介绍了主流大语言模型GPT和Llama的特点与训练方法。GPT系列基于Transformer架构，具有强大的文本生成能力；Llama是Meta开源的模型，使用公开数据训练，性能接近GPT-3.5。重点解析了Llama 2的训练过程、权重文件结构及参数计算方法，包括预训练数据、监督微调和RLHF优化。提供了Llama 2权重文件夹的详细目录说明，并展示了Python代码示例用于解析HF格式权重文件，计算模型参数数量。

2025-12-07 10:06:03 974

原创 transformer模型详解手把手教你做个llama模型 Transformer模块实战

本文介绍了PyTorch中nn.Transformer模块的实现与应用。nn.Transformer包含编码器(TransformerEncoder)、解码器(TransformerDecoder)及多层注意力机制组件，适用于序列任务。文章详细解析了各核心模块的功能，包括多头注意力机制(MultiheadAttention)和层归一化等。通过代码示例展示了如何快速创建标准Transformer模型(6层编码器+6层解码器)，并特别介绍了纯解码器架构的实现方法(如Llama风格)，包含词嵌入层、Transfo

2025-12-06 18:57:07 1161

原创 transformer架构详解用llama2源码理解tranformer和代码实操

本文解析了Transformer架构中的残差连接与层归一化机制，也介绍了损失函数和掩码，并给出代码实例，结合Llama 2源码进行说明。主要内容包括：残差连接通过;输入+网络输出"结构缓解深层网络训练难题层归一化改进为预归一化(Pre-Norm)方案，成为主流设计 Llama 2采用RMSNorm变体代码层面展示了TransformerBlock中残差连接与RMSNorm的具体实现，也有掩码实操内容，实践于理论相结合

2025-12-06 18:01:55 885

原创 transformer模型详解从分词到自注意力机制

自注意力机制让序列中的每个Token（如单词、字符）都能“关注”到序列中所有其他Token，并根据关联强度分配权重，最终生成融合全局上下文的Token表示。通俗理解：好比阅读时，每个词都会“回头看”全文，重点关注与自己语义相关的词（如“他”会关注前文提到的人名），忽略无关词。核心优势：并行计算（O(n²)时间复杂度，n为序列长度），效率远超RNN的O(n)串行；长距离依赖捕捉能力强（无距离限制，不像CNN受感受野约束）；自适应权重分配（通过数据学习依赖关系，而非人工设计）。

2025-12-05 17:00:00 1055

原创 pytorch开发基础实操用torch.nn构建神经网络(附代码)

本文介绍了PyTorch中构建神经网络的核心组件和使用方法。主要内容包括：1) torch.nn模块的核心组件（层、损失函数、工具等）及其应用；2) 优化器torch.optim的使用；3) 训练、验证和测试的完整流程；4) 通过单层感知机实现二分类任务的实操示例。文章详细讲解了如何利用PyTorch内置模块构建神经网络模型，包括模型定义、损失函数选择、优化器配置以及训练过程的关键步骤，并提供了完整的代码实现和运行结果。

2025-12-04 19:40:24 1174

原创 pytorch开发基础从张量到梯度运算和反向传播

PyTorch是当前深度学习研究与应用开发的主流框架之一，自2017年发布以来，凭借使用简单、动态计算图等特性快速崛起，成为TensorFlow的核心竞争对手。需要提前下载好cuda(nvida支持)和pytorchcuda官网：https://developer.nvidia.com/cuda-downloadspytorch官网： https://pytorch.org/或者用pip。

2025-12-03 21:22:15 1018

原创深度学习基础：从损失函数到简易神经网络代码实操

本文系统介绍了深度学习的基础知识，包括损失函数、模型评估、正则化方法、Softmax函数和神经网络原理。重点讲解了均方误差和交叉熵两类损失函数的选择标准，分析了偏差与方差对模型性能的影响，并提供了过拟合/欠拟合的解决方案。文章详细阐述了L1/L2正则化、Dropout等关键技术，解释了Softmax函数在多分类任务中的作用。最后通过Python代码实现了一个包含输入层、隐藏层和输出层的简易神经网络，演示了前向传播和反向传播的核心流程。这些基础知识为深度学习实践提供了重要指导。

2025-12-02 22:16:48 1330

原创深度学习基础：从感知机到激活函数和简单算法解析（附代码实现）

本文系统介绍了深度学习的基础知识，从感知机原理到神经网络训练方法。主要内容包括：1）单层感知机的结构、数学模型和训练逻辑；2）从单层到多层感知机的演进，解决线性不可分问题；3）权重更新机制和梯度下降算法；4）激活函数的作用与常见类型（Sigmoid、tanh、ReLU）。通过Python代码示例演示了前馈传播和反向传播的实现过程，帮助读者理解神经网络的基本工作原理。文章强调激活函数对引入非线性的关键作用，并分析了不同激活函数的优缺点，为深度学习入门提供了系统指导。

2025-12-01 22:04:36 735

原创手把手制作基于vue的前端商城网站（资源免费，审核可能需要点时间）

本文介绍了一个基于Vue3技术栈开发的网易严选风格电商前端模板项目。该项目采用前后端分离架构，前端使用Vue3+Vuex+VueRouter+Less构建，后端通过Node.js+Express模拟接口数据。系统包含完整的电商功能模块，如商品展示、分类导航等，并实现了组件化开发、状态管理、路由配置等核心功能。项目提供了详细的目录结构说明和运行指南，支持快速部署和二次开发，适用于电商项目原型开发、毕业设计、商业项目等多种场景。该项目具有模块解耦、复用性强、易扩展等特点，为开发者提供了一个高质量的前端解决方案。

2025-11-30 12:08:17 985

python写的llama2模型加载训练实战代码

python写的llama2模型加载训练实战代码，以及做了详细的注释，不过模型文件，分词集等需要自备

2025-12-09

基于pytorch的transformer模型实现，架构效仿的是llama2

llama2架构的手搓防制模型，参数大概1.8b

2025-12-06

学生管理系统，毕业设计，开箱即用

学生管理系统，第二行的filename填写自己的路径，做了个条件判断的界面，支持增查删改，储存数据，排序，统计，显示信息

2025-12-03

基于vue的前端商城网站，设计仿照网易严选，可自由与后端对接

这是一套基于 Vue 3 + Vite + Pinia 开发的高品质电商前端模板，1:1 还原网易严选核心设计风格 —— 简约高级的视觉体系、清晰的层级布局、流畅的交互体验，同时兼顾实用性与扩展性体验链接： http://47.109.42.57/#/ 适用人群：前端开发者（Vue 技术栈）：快速搭建电商项目原型、毕业设计、商业项目二次开发；后端开发者：需要配套高质量前端界面，无需投入大量时间开发前端，直接对接接口即可实现完整商城功能；创业团队 / 个体商户：低成本快速搭建自有品牌电商网站，减少开发周期；学生 / 编程学习者：学习 Vue 3 实战开发、电商业务逻辑设计、响应式布局与交互优化；设计师转前端：参考成熟电商 UI 实现，快速落地视觉方案。使用场景：搭建垂直品类电商平台（如家居、美妆、数码、生鲜等，支持品类灵活扩展）；企业官网附属商城模块、品牌自营电商网站开发；毕业设计 / 课程设计（电商方向）、技术面试项目展示；核心目标：降低电商前端开发门槛：提供 “拿来即用” 的完整解决方案，减少重复开发工作，缩短项目上线周期；保证体验与颜值双在线：还原网易严选级别的视觉质感和交互流畅度，提升用户留存率；另外：作为新人，首次发布开源免费

2025-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人