软件不硬-CSDN博客

原创 LoRA 微调

LoRA（低秩自适应）是一种高效的参数微调技术，通过仅调整预训练模型权重的一小部分来适应特定任务。其核心思想是将权重更新矩阵ΔW分解为两个低秩矩阵A和B的乘积，显著减少训练参数。

2026-03-11 18:56:31 424

原创指令微调大模型

本文介绍了大语言模型指令微调的全过程，重点阐述数据准备和批处理方法。指令微调分为三个阶段：数据准备、模型微调和性能评估。

2026-03-11 18:56:19 542

原创分类微调大模型

本文介绍了大语言模型在文本分类任务上的微调方法，以垃圾短信分类为例。首先通过平衡数据集解决类别不平衡问题，并使用填充技术处理不同长度文本。然后修改预训练模型架构，替换输出层为二分类结构，并冻结大部分参数仅训练输出层。

2026-01-19 13:30:03 648

原创预训练大模型

本文介绍了GPT模型的文本生成流程及预训练方法。

2026-01-19 13:29:40 891

本文介绍了构建类GPT大语言模型的关键组件及其实现方法。首先阐述了层归一化技术如何通过调整激活值分布来提升训练稳定性，随后对比了ReLU、GELU等激活函数的特性，并实现了包含GELU的前馈神经网络模块。文章详细讲解了快捷连接在缓解梯度消失问题中的作用，以及如何将多头注意力机制与前馈网络结合形成Transformer块。最后展示了GPT模型的整体架构，包括文本生成机制从词元编码到解码的全过程，并指出未经训练的模型尚无法生成连贯文本。这些组件共同构成了GPT模型处理序列数据、学习语言模式的基础架构。

2026-01-11 13:02:45 1285

原创 CARP组合聚合原则

CARP原则（合成/聚合复用原则）提倡在应用设计中优先使用合成或聚合关系而非继承来实现代码复用。这一原则通过对象组合降低类间耦合，提升系统的扩展性和可维护性。

2026-01-11 13:01:52 461

原创 LoD迪米特原则

迪米特法则（Law of Demeter，LoD），也称为最少知识原则，强调对象应只与直接相关的对象交互，减少对其他对象的了解，从而降低耦合度，提高系统的可维护性和可扩展性。核心思想是减少对象之间的直接依赖关系，通过封装和间接调用来实现松耦合。

2026-01-11 13:01:02 346

原创自注意力机制--大模型输入的上下文【下】

注意力机制可以将输入元素转换为增强的上下文向量表示。自注意力机制通过对输入进行加权求和来计算上下文向量表示。使用矩阵乘法替代for循环，可以提高计算效率。引入了可训练的权重矩阵来计算输入的中间变换：查询矩阵、值矩阵和键矩阵。我们从一个基础版本的自注意力机制开始，然后逐步加入可训练的权重。因果注意力机制在自注意力的基础上增加了额外掩码，使得大语言模型可以一次生成一个单词。最后，多头注意力将注意力机制划分成多个头，从而使模型能够并行捕获输入数据的各种特征。

2026-01-07 07:16:20 1018

原创注意力机制--大模型输入的上下文【上】

将嵌入的输入词元与相应的注意力权重。

2026-01-07 07:15:58 1775

原创嵌入向量--大模型的输入

大语言模型是在海量文本数据上进行预训练。然而，文本数据是离散的，无法直接用于执行神经网络训练所需的数学运算。因此，我们需要将文本数据转换为‘嵌入’的数值向量形式。下面我们学习如何为训练大模型准备输入数据。

2026-01-03 13:55:45 813

原创从人工智能到大语言模型

下图展示了人工智能、机器学习、深度学习和大语言模型以及生成式大语言模型之间的关系。人工智能是包括机器学习、深度学习等众多分支的领域，旨在开发能够执行需要人类智能水平的任务（包括语音理解、模式识别、决策制定）的机器。机器学的重点研究内容是实现人工智能的算法。机器学习涉及开发能够从数据中学习的算法。无需明确编程，这些算法就能基于数据做出预测或决策。深度学习是机器学习的一个分支，它主要利用 3 层及以上的神经网络（深度神经网络）来建模数据中的复杂模式和抽象特征。

2026-01-03 13:52:16 358

原创 DIP依赖倒置原则

依赖反转原则（DIP）强调高层模块不应直接依赖低层模块，而应通过抽象接口实现依赖关系，从而降低耦合度、提高扩展性和便于测试。

2025-05-10 10:20:48 327

原创 ISP接口隔离原则

接口隔离原则（ISP）强调软件设计中应避免依赖不需要的接口，通过使用多个特定接口而非单一总接口来降低耦合度、提高灵活性，并符合开闭原则。通过将大接口拆分为多个小接口，客户端只需依赖其实际需要的接口，从而减少不必要的依赖。

2025-05-10 10:20:40 564

原创 LSP里氏替换原则

里氏替换原则（LSP）是面向对象设计中的重要原则，强调子类必须能够无缝替换父类，且不改变程序的行为。

2025-05-10 10:20:27 621

原创 SRP单一职责原则

软件设计中的基本准则包括高内聚和低耦合，其中内聚性关注模块或类内部元素的相关性。单一职责原则（SRP）是这些准则的核心，强调一个类应只有一个引起变化的原因，即单一职责。SRP的特点包括降低类间耦合、提高可维护性和可复用性。

2025-05-10 10:20:14 453

原创 OCP开闭原则

开闭原则（OCP）是软件设计中的核心原则之一，强调软件实体（如模块、类、方法等）应对扩展开放，而对修改关闭。

2025-05-10 10:18:26 684

原创探秘 LangChain 函数定义

LangChain 中定义函数的多种方式各有特点和适用场景。Python 函数基础定义简单直接；注解形式有助于明确类型和添加描述；Pydantic 方式提供强大的数据验证和转换功能；TypedDict 方式能灵活定义参数结构；BaseTool 方式则方便将函数封装为工具用于复杂场景。开发者可以根据具体的业务需求和项目特点，选择合适的方式定义函数，从而更高效地构建基于大语言模型的应用。

2025-04-13 11:13:34 878

原创软件架构演进：复用资源与服务之路

在软件系统的发展历程中，架构的演进始终围绕着如何更高效地复用资源与服务这一核心主题展开。从最初的单体架构开始，到今天已形成了多种成熟的架构模式和服务模型，每一步都体现了对可扩展、可复用和可维护性的不懈追求。

2025-04-13 11:13:04 855

原创 ChatModel与LLM

ChatModel与LLM的区别

2025-03-23 20:02:38 400

原创 LangChain调用自定义工具

langchain调用自定义工具

2025-03-23 20:02:32 533

原创 LangChain核心概念

LangChain部分核心概念

2025-03-08 17:41:40 1079

原创初识LangChain

LangChain是一个开源框架，用于快速开发部署由LLM驱动的应用。LangChain使LLM不仅可以处理文本，还能够在更广泛的环境中进行操作和响应，从而扩展LLM的应用范围。如果把LLM比作CPU，那么LangChain类似于传感器。

2025-03-08 17:41:27 974

原创 Ollama微调

在 Ollama 里，Modelfile是用来定义和配置模型的文件，其中包含众多参数用于控制模型的构建、训练和使用。

2025-02-25 22:17:45 1974

原创 Ollama部署与常用命令

Ollama是一款开源工具，其目标是简化大语言模型在本地环境的部署和使用。它支持多种流行的开源大语言模型，如 Llama 2、Qwen2.5等。介绍Ollama部署和常用命令。

2025-02-25 22:16:21 904

原创从零起步：LangChain ChatPromptTemplate基础使用

在上篇文章中，我们已经学习PromptTemplate。现在，我们继续学习ChatPromptTemplate。ChatPromptTemplate 是 LangChain 框架中用于构建对话提示的强大工具。它专为多轮对话场景设计，能将不同角色的消息整合为连贯提示，助力开发者精准引导语言模型生成符合预期的回复。通过定义角色、消息内容及灵活的模板变量，ChatPromptTemplate让创建复杂对话提示变得轻松，无论是构建智能客服、聊天机器人，还是交互式智能助手，都能大幅提升对话交互的逻辑性与流畅性。

2025-02-20 20:20:49 3570

空空如也

空空如也