- 博客(40)
- 收藏
- 关注
原创 LoRA 微调
LoRA(低秩自适应)是一种高效的参数微调技术,通过仅调整预训练模型权重的一小部分来适应特定任务。其核心思想是将权重更新矩阵ΔW分解为两个低秩矩阵A和B的乘积,显著减少训练参数。
2026-03-11 18:56:31
424
原创 分类微调大模型
本文介绍了大语言模型在文本分类任务上的微调方法,以垃圾短信分类为例。首先通过平衡数据集解决类别不平衡问题,并使用填充技术处理不同长度文本。然后修改预训练模型架构,替换输出层为二分类结构,并冻结大部分参数仅训练输出层。
2026-01-19 13:30:03
648
原创 手写大模型
本文介绍了构建类GPT大语言模型的关键组件及其实现方法。首先阐述了层归一化技术如何通过调整激活值分布来提升训练稳定性,随后对比了ReLU、GELU等激活函数的特性,并实现了包含GELU的前馈神经网络模块。文章详细讲解了快捷连接在缓解梯度消失问题中的作用,以及如何将多头注意力机制与前馈网络结合形成Transformer块。最后展示了GPT模型的整体架构,包括文本生成机制从词元编码到解码的全过程,并指出未经训练的模型尚无法生成连贯文本。这些组件共同构成了GPT模型处理序列数据、学习语言模式的基础架构。
2026-01-11 13:02:45
1285
原创 CARP组合聚合原则
CARP原则(合成/聚合复用原则)提倡在应用设计中优先使用合成或聚合关系而非继承来实现代码复用。这一原则通过对象组合降低类间耦合,提升系统的扩展性和可维护性。
2026-01-11 13:01:52
461
原创 LoD迪米特原则
迪米特法则(Law of Demeter,LoD),也称为最少知识原则,强调对象应只与直接相关的对象交互,减少对其他对象的了解,从而降低耦合度,提高系统的可维护性和可扩展性。核心思想是减少对象之间的直接依赖关系,通过封装和间接调用来实现松耦合。
2026-01-11 13:01:02
346
原创 自注意力机制--大模型输入的上下文【下】
注意力机制可以将输入元素转换为增强的上下文向量表示。自注意力机制通过对输入进行加权求和来计算上下文向量表示。使用矩阵乘法替代for循环,可以提高计算效率。引入了可训练的权重矩阵来计算输入的中间变换:查询矩阵、值矩阵和键矩阵。我们从一个基础版本的自注意力机制开始,然后逐步加入可训练的权重。因果注意力机制在自注意力的基础上增加了额外掩码,使得大语言模型可以一次生成一个单词。最后,多头注意力将注意力机制划分成多个头,从而使模型能够并行捕获输入数据的各种特征。
2026-01-07 07:16:20
1018
原创 嵌入向量--大模型的输入
大语言模型是在海量文本数据上进行预训练。然而,文本数据是离散的,无法直接用于执行神经网络训练所需的数学运算。因此,我们需要将文本数据转换为‘嵌入’的数值向量形式。下面我们学习如何为训练大模型准备输入数据。
2026-01-03 13:55:45
813
原创 从人工智能到大语言模型
下图展示了人工智能、机器学习、深度学习和大语言模型以及生成式大语言模型之间的关系。人工智能是包括机器学习、深度学习等众多分支的领域,旨在开发能够执行需要人类智能水平的任务(包括语音理解、模式识别、决策制定)的机器。机器学的重点研究内容是实现人工智能的算法。机器学习涉及开发能够从数据中学习的算法。无需明确编程,这些算法就能基于数据做出预测或决策。深度学习是机器学习的一个分支,它主要利用 3 层及以上的神经网络(深度神经网络)来建模数据中的复杂模式和抽象特征。
2026-01-03 13:52:16
358
原创 ISP接口隔离原则
接口隔离原则(ISP)强调软件设计中应避免依赖不需要的接口,通过使用多个特定接口而非单一总接口来降低耦合度、提高灵活性,并符合开闭原则。通过将大接口拆分为多个小接口,客户端只需依赖其实际需要的接口,从而减少不必要的依赖。
2025-05-10 10:20:40
564
原创 SRP单一职责原则
软件设计中的基本准则包括高内聚和低耦合,其中内聚性关注模块或类内部元素的相关性。单一职责原则(SRP) 是这些准则的核心,强调一个类应只有一个引起变化的原因,即单一职责。SRP的特点包括降低类间耦合、提高可维护性和可复用性。
2025-05-10 10:20:14
453
原创 探秘 LangChain 函数定义
LangChain 中定义函数的多种方式各有特点和适用场景。Python 函数基础定义简单直接;注解形式有助于明确类型和添加描述;Pydantic 方式提供强大的数据验证和转换功能;TypedDict 方式能灵活定义参数结构;BaseTool 方式则方便将函数封装为工具用于复杂场景。开发者可以根据具体的业务需求和项目特点,选择合适的方式定义函数,从而更高效地构建基于大语言模型的应用。
2025-04-13 11:13:34
878
原创 软件架构演进:复用资源与服务之路
在软件系统的发展历程中,架构的演进始终围绕着如何更高效地复用资源与服务这一核心主题展开。从最初的单体架构开始,到今天已形成了多种成熟的架构模式和服务模型,每一步都体现了对可扩展、可复用和可维护性的不懈追求。
2025-04-13 11:13:04
855
原创 初识LangChain
LangChain是一个开源框架,用于快速开发部署由LLM驱动的应用。LangChain使LLM不仅可以处理文本,还能够在更广泛的环境中进行操作和响应,从而扩展LLM的应用范围。如果把LLM比作CPU,那么LangChain类似于传感器。
2025-03-08 17:41:27
974
原创 Ollama部署与常用命令
Ollama是一款开源工具,其目标是简化大语言模型在本地环境的部署和使用。它支持多种流行的开源大语言模型,如 Llama 2、Qwen2.5等。介绍Ollama部署和常用命令。
2025-02-25 22:16:21
904
原创 从零起步:LangChain ChatPromptTemplate基础使用
在上篇文章中,我们已经学习PromptTemplate。现在,我们继续学习ChatPromptTemplate。ChatPromptTemplate 是 LangChain 框架中用于构建对话提示的强大工具。它专为多轮对话场景设计,能将不同角色的消息整合为连贯提示,助力开发者精准引导语言模型生成符合预期的回复。通过定义角色、消息内容及灵活的模板变量,ChatPromptTemplate让创建复杂对话提示变得轻松,无论是构建智能客服、聊天机器人,还是交互式智能助手,都能大幅提升对话交互的逻辑性与流畅性。
2025-02-20 20:20:49
3570
原创 从零开始:LangChain PromptTemplate 基础使用
PromptTemplate是里一个关键组件,其主要用途是构建和管理提示模板。借助,开发者能够把动态参数融入到提示文本里,进而生成个性化的提示信息,以此来和大语言模型进行交互最终获得更准确的回复。下面详细介绍。
2025-02-20 20:19:08
751
原创 Prompt工程
Prompt是人与LLM之间的桥梁。类似于通过网页界面与系统交互。Prompt引导模型生成特定类型文本的关键输入,影响模型的输出方向与质量。
2025-02-09 16:50:08
1262
原创 LLM Agent
大模型 Agent 是构建在大型语言模型(LLM)之上的智能体,它具有模拟人类独立思考的能力,能够灵活调用各类工具,以逐步实现预设的目标。
2025-02-01 18:12:11
811
原创 代码质量之可读性
大家都知道,在软件开发这条路上,代码写好不好懂可太重要了。代码可读性不只是让现在的开发团队协作更顺溜,对以后软件的维护和升级也有大影响。可以说,把代码可读性弄好,那就是朝着优质代码的方向迈出了关键一步。我们可以从下面几个方面提高代码的可读性。
2024-12-15 20:02:35
578
原创 DDD架构设计方法
通用语言,定义对象在上下文的含义。在事件风暴过程中,团队内达成共识的,准确描述业务含义和规则的语言。限界上下文,Bounded Context,定义领域边界,确保每个上下文对象在特定的边界内具有唯一的含义,在这个边界内,组合这些对象构建领域模型。在限定的上下文环境内,用来封装通用语言和领域对象,保证领域内的术语、领域对象等有确切的含义,没有语义二义性的业务边界。限界上下文是定义通用语言的上下文边界。这个边界既是业务领域的边界,也是微服务拆分的边界。
2024-08-05 21:09:59
1862
原创 自动化MyBatis SQL语法检测工具
在日常系统维护工作中,我们经常需要处理与数据库交互的复杂逻辑。由于MyBatis框架中包含众多条件判断语句,这可能在自测过程中导致某些条件被忽略,导致未能发现SQL语句中的潜在语法错误。特别是在维护多年的系统。有时候在生产环境也会暴露SQL语法错误。为了解决这一问题,我们可以开发一款工具,用以自动检测MyBatis中所有SQL语句的语法正确性。生成java对象,并对属性赋值。获取方法的入参类型,并赋值。
2024-06-29 21:36:25
1817
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅