自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 LoRA 微调

LoRA(低秩自适应)是一种高效的参数微调技术,通过仅调整预训练模型权重的一小部分来适应特定任务。其核心思想是将权重更新矩阵ΔW分解为两个低秩矩阵A和B的乘积,显著减少训练参数。

2026-03-11 18:56:31 424

原创 指令微调大模型

本文介绍了大语言模型指令微调的全过程,重点阐述数据准备和批处理方法。指令微调分为三个阶段:数据准备、模型微调和性能评估。

2026-03-11 18:56:19 542

原创 分类微调大模型

本文介绍了大语言模型在文本分类任务上的微调方法,以垃圾短信分类为例。首先通过平衡数据集解决类别不平衡问题,并使用填充技术处理不同长度文本。然后修改预训练模型架构,替换输出层为二分类结构,并冻结大部分参数仅训练输出层。

2026-01-19 13:30:03 648

原创 预训练大模型

本文介绍了GPT模型的文本生成流程及预训练方法。

2026-01-19 13:29:40 891

原创 手写大模型

本文介绍了构建类GPT大语言模型的关键组件及其实现方法。首先阐述了层归一化技术如何通过调整激活值分布来提升训练稳定性,随后对比了ReLU、GELU等激活函数的特性,并实现了包含GELU的前馈神经网络模块。文章详细讲解了快捷连接在缓解梯度消失问题中的作用,以及如何将多头注意力机制与前馈网络结合形成Transformer块。最后展示了GPT模型的整体架构,包括文本生成机制从词元编码到解码的全过程,并指出未经训练的模型尚无法生成连贯文本。这些组件共同构成了GPT模型处理序列数据、学习语言模式的基础架构。

2026-01-11 13:02:45 1285

原创 CARP组合聚合原则

CARP原则(合成/聚合复用原则)提倡在应用设计中优先使用合成或聚合关系而非继承来实现代码复用。这一原则通过对象组合降低类间耦合,提升系统的扩展性和可维护性。

2026-01-11 13:01:52 461

原创 LoD迪米特原则

迪米特法则(Law of Demeter,LoD),也称为最少知识原则,强调对象应只与直接相关的对象交互,减少对其他对象的了解,从而降低耦合度,提高系统的可维护性和可扩展性。核心思想是减少对象之间的直接依赖关系,通过封装和间接调用来实现松耦合。

2026-01-11 13:01:02 346

原创 自注意力机制--大模型输入的上下文【下】

注意力机制可以将输入元素转换为增强的上下文向量表示。自注意力机制通过对输入进行加权求和来计算上下文向量表示。使用矩阵乘法替代for循环,可以提高计算效率。引入了可训练的权重矩阵来计算输入的中间变换:查询矩阵、值矩阵和键矩阵。我们从一个基础版本的自注意力机制开始,然后逐步加入可训练的权重。因果注意力机制在自注意力的基础上增加了额外掩码,使得大语言模型可以一次生成一个单词。最后,多头注意力将注意力机制划分成多个头,从而使模型能够并行捕获输入数据的各种特征。

2026-01-07 07:16:20 1018

原创 注意力机制--大模型输入的上下文【上】

将嵌入的输入词元与相应的注意力权重。

2026-01-07 07:15:58 1775

原创 嵌入向量--大模型的输入

大语言模型是在海量文本数据上进行预训练。然而,文本数据是离散的,无法直接用于执行神经网络训练所需的数学运算。因此,我们需要将文本数据转换为‘嵌入’的数值向量形式。下面我们学习如何为训练大模型准备输入数据。

2026-01-03 13:55:45 813

原创 从人工智能到大语言模型

下图展示了人工智能、机器学习、深度学习和大语言模型以及生成式大语言模型之间的关系。人工智能是包括机器学习、深度学习等众多分支的领域,旨在开发能够执行需要人类智能水平的任务(包括语音理解、模式识别、决策制定)的机器。机器学的重点研究内容是实现人工智能的算法。机器学习涉及开发能够从数据中学习的算法。无需明确编程,这些算法就能基于数据做出预测或决策。深度学习是机器学习的一个分支,它主要利用 3 层及以上的神经网络(深度神经网络)来建模数据中的复杂模式和抽象特征。

2026-01-03 13:52:16 358

原创 DIP依赖倒置原则

依赖反转原则(DIP)强调高层模块不应直接依赖低层模块,而应通过抽象接口实现依赖关系,从而降低耦合度、提高扩展性和便于测试。

2025-05-10 10:20:48 327

原创 ISP接口隔离原则

接口隔离原则(ISP)强调软件设计中应避免依赖不需要的接口,通过使用多个特定接口而非单一总接口来降低耦合度、提高灵活性,并符合开闭原则。通过将大接口拆分为多个小接口,客户端只需依赖其实际需要的接口,从而减少不必要的依赖。

2025-05-10 10:20:40 564

原创 LSP里氏替换原则

里氏替换原则(LSP)是面向对象设计中的重要原则,强调子类必须能够无缝替换父类,且不改变程序的行为。

2025-05-10 10:20:27 621

原创 SRP单一职责原则

软件设计中的基本准则包括高内聚和低耦合,其中内聚性关注模块或类内部元素的相关性。单一职责原则(SRP) 是这些准则的核心,强调一个类应只有一个引起变化的原因,即单一职责。SRP的特点包括降低类间耦合、提高可维护性和可复用性。

2025-05-10 10:20:14 453

原创 OCP开闭原则

开闭原则(OCP)是软件设计中的核心原则之一,强调软件实体(如模块、类、方法等)应对扩展开放,而对修改关闭。

2025-05-10 10:18:26 684

原创 探秘 LangChain 函数定义

LangChain 中定义函数的多种方式各有特点和适用场景。Python 函数基础定义简单直接;注解形式有助于明确类型和添加描述;Pydantic 方式提供强大的数据验证和转换功能;TypedDict 方式能灵活定义参数结构;BaseTool 方式则方便将函数封装为工具用于复杂场景。开发者可以根据具体的业务需求和项目特点,选择合适的方式定义函数,从而更高效地构建基于大语言模型的应用。

2025-04-13 11:13:34 878

原创 软件架构演进:复用资源与服务之路

在软件系统的发展历程中,架构的演进始终围绕着如何更高效地复用资源与服务这一核心主题展开。从最初的单体架构开始,到今天已形成了多种成熟的架构模式和服务模型,每一步都体现了对可扩展、可复用和可维护性的不懈追求。

2025-04-13 11:13:04 855

原创 ChatModel与LLM

ChatModel与LLM的区别

2025-03-23 20:02:38 400

原创 LangChain调用自定义工具

langchain调用自定义工具

2025-03-23 20:02:32 533

原创 LangChain核心概念

LangChain部分核心概念

2025-03-08 17:41:40 1079

原创 初识LangChain

LangChain是一个开源框架,用于快速开发部署由LLM驱动的应用。LangChain使LLM不仅可以处理文本,还能够在更广泛的环境中进行操作和响应,从而扩展LLM的应用范围。如果把LLM比作CPU,那么LangChain类似于传感器。

2025-03-08 17:41:27 974

原创 Ollama微调

在 Ollama 里,Modelfile是用来定义和配置模型的文件,其中包含众多参数用于控制模型的构建、训练和使用。

2025-02-25 22:17:45 1974

原创 Ollama部署与常用命令

Ollama是一款开源工具,其目标是简化大语言模型在本地环境的部署和使用。它支持多种流行的开源大语言模型,如 Llama 2、Qwen2.5等。介绍Ollama部署和常用命令。

2025-02-25 22:16:21 904

原创 从零起步:LangChain ChatPromptTemplate基础使用

在上篇文章中,我们已经学习PromptTemplate。现在,我们继续学习ChatPromptTemplate。ChatPromptTemplate 是 LangChain 框架中用于构建对话提示的强大工具。它专为多轮对话场景设计,能将不同角色的消息整合为连贯提示,助力开发者精准引导语言模型生成符合预期的回复。通过定义角色、消息内容及灵活的模板变量,ChatPromptTemplate让创建复杂对话提示变得轻松,无论是构建智能客服、聊天机器人,还是交互式智能助手,都能大幅提升对话交互的逻辑性与流畅性。

2025-02-20 20:20:49 3570

原创 从零开始:LangChain PromptTemplate 基础使用

PromptTemplate是里一个关键组件,其主要用途是构建和管理提示模板。借助,开发者能够把动态参数融入到提示文本里,进而生成个性化的提示信息,以此来和大语言模型进行交互最终获得更准确的回复。下面详细介绍。

2025-02-20 20:19:08 751

原创 Prompt工程

Prompt是人与LLM之间的桥梁。类似于通过网页界面与系统交互。Prompt引导模型生成特定类型文本的关键输入,影响模型的输出方向与质量。

2025-02-09 16:50:08 1262

原创 LLM 函数调用

LLM函数调用

2025-02-07 09:00:21 485

原创 LLM Agent

大模型 Agent 是构建在大型语言模型(LLM)之上的智能体,它具有模拟人类独立思考的能力,能够灵活调用各类工具,以逐步实现预设的目标。

2025-02-01 18:12:11 811

原创 代码质量之函数与类

代码质量,函数,类

2025-01-29 14:59:22 325

原创 代码质量之可读性

大家都知道,在软件开发这条路上,代码写好不好懂可太重要了。代码可读性不只是让现在的开发团队协作更顺溜,对以后软件的维护和升级也有大影响。可以说,把代码可读性弄好,那就是朝着优质代码的方向迈出了关键一步。我们可以从下面几个方面提高代码的可读性。

2024-12-15 20:02:35 578

原创 基金投资入门

基金入门

2024-10-06 12:38:29 1085

原创 软件系统的组件设计

组件是整个软件系统在部署过程中可以独立部署的最小实体。讨论与构建组件有关的基本原则以及组件之间的关系。

2024-10-06 12:37:11 1726

原创 大型网站技术架构 --核心原理与案例分析

大型网站技术架构 --核心原理与案例分析

2024-09-22 19:51:48 1165

原创 DDD分层架构

DDD分层架构

2024-09-22 17:41:20 772

原创 软件架构--架构模式、特征

软件架构、模式和特征

2024-08-17 19:10:03 1991

原创 DDD架构设计方法

通用语言,定义对象在上下文的含义。在事件风暴过程中,团队内达成共识的,准确描述业务含义和规则的语言。限界上下文,Bounded Context,定义领域边界,确保每个上下文对象在特定的边界内具有唯一的含义,在这个边界内,组合这些对象构建领域模型。在限定的上下文环境内,用来封装通用语言和领域对象,保证领域内的术语、领域对象等有确切的含义,没有语义二义性的业务边界。限界上下文是定义通用语言的上下文边界。这个边界既是业务领域的边界,也是微服务拆分的边界。

2024-08-05 21:09:59 1862

原创 优化ifelse语句

面向对象设计。

2024-07-21 21:15:08 329

原创 对象工厂-自动生成任意java对象

通过简单工厂来生成任意对象

2024-07-14 11:13:16 362

原创 自动化MyBatis SQL语法检测工具

在日常系统维护工作中,我们经常需要处理与数据库交互的复杂逻辑。由于MyBatis框架中包含众多条件判断语句,这可能在自测过程中导致某些条件被忽略,导致未能发现SQL语句中的潜在语法错误。特别是在维护多年的系统。有时候在生产环境也会暴露SQL语法错误。为了解决这一问题,我们可以开发一款工具,用以自动检测MyBatis中所有SQL语句的语法正确性。生成java对象,并对属性赋值。获取方法的入参类型,并赋值。

2024-06-29 21:36:25 1817

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除