SACKings-CSDN博客

原创如何创建智能体？

从最简单功能开始，逐步增加复杂性和稳定性。清晰的规划和持续的测试是关键。创建Agent是一个系统性的工程过程，我将为你梳理一个。：用户输入城市，Agent提供天气并推荐是否适合旅行。的清晰路径，并提供不同技术背景下的方案选择。无论简单还是复杂，一个Agent通常遵循。LLM推理/任务分解。创建Agent是一个。

2025-12-20 11:59:43 666

原创智能体Agent是什么？

演进（如多个Agent分工合作完成项目），并逐步融合具身智能（物理世界交互）、情感计算等能力，成为通向通用人工智能（AGI）的关键路径之一。它不仅仅是简单的程序或工具，而是具备一定“自主性”和“主动性”的AI实体。智能体（Agent）在人工智能领域通常指一种。智能体正从“单一任务执行者”向。智能体Agent是什么？

2025-12-20 11:54:07 156

原创大模型训练过程中，本质上是做填空题，那么这些填空题是如何来的？计算损失函数时它的正确答案又是怎么来的？

它学会"法国的首都是巴黎"，不是因为有人 explicitly 教它，而是因为在无数文本中，这是最可能出现在"法国的首都是"后面的那个词。假设在训练初期，它给"巴黎"的概率是0.1%，给"伦敦"的概率是0.5%，给"罗马"的概率是0.3%，等等。来表示这个正确答案：这是一个长度为5万的向量，只有在"巴黎"对应的索引位置上是1，其他所有位置都是0。让我们用具体的例子来拆解这个"自我创造学习材料"的过程。输入: "法国" "的" "首都" "是"输入: "的" "首都" "是" "巴黎"“法国的首都是巴黎。

2025-12-19 08:39:47 1068

原创假如我现在要重头开始训练一个大模型，我怎么能训练它知道”法国的首都是巴黎“？

模型学会“法国首都是巴黎”，

2025-12-19 08:39:20 714

原创大模型中神经元的数量和词汇表中的词汇的数量是什么关系？

组件角色类比数量级示例词汇表所有已知词的索引图书馆目录50,000个词词向量一个词的数值化含义一本书的实际内容每个词是一个768维的向量神经元/模型参数进行思考和计算的处理器图书馆里的研究员团队数十亿至万亿个参数（权重和偏置）所以，最核心的区别在于：词汇表大小决定了模型认识的字的多少（知识的广度）。神经元的数量（参数量）决定了模型能有多么深刻和复杂的思考（知识的深度和推理能力）。

2025-12-19 08:38:46 494

原创在“法国的首都是？“ 这个例子中？比如在第一层，输入是 ”法国的首都是？“这句话经过编码的向量，那么计算Key矩阵时，K矩阵的参数是多少？这个参数是怎么跟词汇表中”巴黎“这个词产生关系？

模型的知识（如“法国首都是巴黎”）并不是硬编码在某个参数里的。而是分布式地存储在所有参数中，包括：输入词嵌入（让“法国”、“首都”、“巴黎”有正确的初始向量）。中间层的注意力权重（学会在看到“法国”和“首都”时，激活相关的信息）。输出层的词嵌入（让“需要首都”的Query与“巴黎”的Key向量高度匹配）。K矩阵的角色是双重的在中间层：它是一个转换器，用于序列内部的计算。在输出层：它是一个答案选项库，包含了所有可能的候选词。

2025-12-18 11:02:22 699

原创每个大模型的头数在训练前是不是就定了？比如Chat GPT4，有多少个头？

可以把这理解为：在建造大楼（训练模型）前，你就必须决定好每层要有多少根柱子（头数）和总层高（层数），这些决定了建筑的固有结构和潜力。至于柱子要用多强的混凝土（权重参数），则是在施工（训练）中不断优化的。，它们定义了模型的“骨架”或“蓝图”。一旦训练开始，这些架构就无法改变，能改变的只有模型内部的权重和偏置（即“参数”）。每个大模型的头数在训练前是不是就定了？因为这直接决定了模型参数量的计算和硬件资源的需求。但是，我们可以根据泄露的信息和通常的设计原则进行。和它的层数、总参数量一样，这属于其核心架构机密。

2025-12-18 10:59:57 408

原创如何理解Transformer里的多头？

表征子空间的多样性：强制让模型在不同的子空间中学习不同类型的关系。如果一个头“分心”或失败了，还有其他头可以补上。类似于卷积神经网络的多个滤波器：CNN使用不同的滤波器来提取不同特征（边缘、纹理、形状）。多头注意力也是如此，每个头就像是捕捉不同语言关系的“滤波器”。增强模型的容量和表达能力：更多的头意味着模型可以同时关注更多种类的模式，而不会让这些模式在同一个向量空间里互相干扰。

2025-12-18 10:58:29 855

原创大模型每一层的神经元数目跟训练参数是什么关系？

个需要训练的“参数”。在大模型中，这种由连接产生的参数数量会以惊人的规模增长，这才造就了它们数以亿计甚至万亿计的参数量。神经元数目只是决定了网络结构的“宽度”和“深度”，而参数则是在这些结构上“铺开”的可训练变量。我们以Transformer模型中最主要的两种层为例，来看看参数具体是如何产生的。假设一个微型网络：输入层3个神经元，隐藏层2个神经元，输出层1个神经元。此外，注意力层之后通常还有一个用于输出的线性层，它还有一个权重矩阵。这是参数的主要来源，其结构最能体现“连接决定参数”的概念。

2025-12-17 10:37:51 833

原创大模型的层数是如何确定的，像ChatGPT4的层数是多少？

大模型的层数是如何确定的，像ChatGPT4的层数是多少？这个问题，它涉及到深度学习模型设计的核心——模型架构的超参数选择。模型的“层数”不是一个通过公式计算出来的确定值，而是工程、资源和性能之间权衡的结果。层数的选择是一个结合了经验、实验和巨大计算资源探索的过程，主要依据以下几个因素：总结来说，层数是一个通过大规模实验“摸索”出来的经验值，目的是在给定的计算预算下最大化模型性能。关于这一点，需要明确一个非常重要的概念：OpenAI 没有官方公布 GPT-4 的具体架构细节，包括其精确的层数。它们被视为核心

2025-12-17 10:36:13 531

原创带着位置信息的词向量被组合成一个序列，输入到模型的解码器中后，第一层的Q是如何计算出来的？

第一层的Q是通过将带有位置编码的输入词向量矩阵与第一层训练好的权重矩阵W_Q相乘而计算出来的。输入：词嵌入 + 位置编码参数：预训练的权重矩阵 W_Q操作：矩阵乘法结果：每个位置都有一个Query向量，代表该位置想要从其他位置获取什么样的信息。这个过程在每一层都会重复，但每一层都有自己独立的 W_Q, W_K, W_V 矩阵，使得网络能够在不同的抽象层次上学习不同的"提问"和"回答"模式。这正是Transformer能够如此深刻地理解语言上下文的原因。

2025-12-17 10:33:12 728

原创在使用大模型时，当我输入一个问题时，它又是怎么找到答案的？

当我们输入一个问题时，模型并不是在一个巨大的数据库里“查找”答案，而是在“计算”出一个答案。它利用从训练数据中学到的“世界模型”，为你动态地、合乎逻辑地编织出一个回答。的，这意味着它一次只生成一个词，并且将新生成的词作为下一步的输入。在使用大模型时，当我输入一个问题时，它又是怎么找到答案的？输入序列变为 "法国的首都是?当你输入“法国的首都是？所以，当你向大模型提问时，你实际上是在。用户输入: "法国的首都是?最终输出: "法国的首都是巴黎"下面我们来详细讲解图中的每一步。输出"Paris"的概率最高。

2025-12-17 10:31:31 758

原创如果我手头现在有一本书，需要训练大模型读懂这本书，那么实际的训练操作是什么？

你不是在创造一个全新的大脑，而是在用一个高度专业化的知识库去“精雕细琢”一个已经具备基本智力的模型，使其成为某个特定领域的专家。用一本书训练一个大模型，虽然在计算上可能不现实（除非你有超算中心），但从原理上，这个过程清晰地展示了现代大模型训练的完整流程。（称为“步”或“轮”），直到模型在书的内容上表现良好，损失值下降到可接受的水平。如果我手头现在有一本书，需要训练大模型读懂这本书，那么实际的训练操作是什么？这是最核心的决策点，取决于你的目标和计算资源。总而言之，用一本书训练模型，本质上是一个。

2025-12-17 10:28:13 805

原创实际训练或使用大模型时，Query, Key, Value怎么定义？

权重矩阵：就像三个不同的**“提问模板”“索引制作规则”** 和“内容提炼指南”。模型通过阅读全世界的文本（训练），学会了这些模板、规则和指南应该长什么样。输入词向量X：就像是原始的文本材料。计算 Q, K, V：就是研究员根据他学会的“模板”和“规则”，针对眼前的“原始材料”，提出具体的问题、制作索引卡和提炼出内容卡片。注意力计算：就是研究员拿着他的问题，去翻阅所有的索引卡，找到最相关的几张，然后把这些内容卡片上的信息融合起来，形成自己的理解。所以，您不需要手动定义 Q, K, V。

2025-12-16 11:54:38 471

原创大模型词的分割是怎么定的？

大模型词的分割是怎么定的？比如之前文章中的例子中，为什么把“人工智能”放一起，而不是分割为两个词“人工” 和“智能”？这个问题，它直接命中了自然语言处理中的一个关键挑战：分词。为什么是“人工智能”而不是“人工”和“智能”，这背后并没有一个唯一正确的“上帝法则”，而是不同方法和权衡下的结果。简单来说，分词策略的选择是在 “语义完整性” 和 “灵活性” 之间做权衡。让我们来拆解主流的几种分词方法，您就能明白其中的道理了。子词分词法完美地平衡了词级和字符级的优点，它成为了当今所有主流大模型（如BERT、GPT、L

2025-12-16 09:40:41 592

原创大模型训练时原始的文本资料是如何变成词向量的？

将原始文本变成词向量的过程，通常被称为。：当模型在完成它的主要任务（如预测下一个词、完形填空）时，它会通过。首先，我们需要将连续的文本切分成模型能够处理的基本单元（称为。这个过程经历了从简单到复杂，从“无知”到“有语义”的演进。分词后，我们会得到一个包含所有可能出现的基本单元的。大模型训练时原始的文本资料是如何变成词向量的？算法，不断地调整这个嵌入表格里的每一个数字。它是整个深度学习模型能够理解语言的基础。下面我们来详细拆解图中的每一个步骤。所以，词向量不是人为设计好的，而是。的（是一些随机的小数）。

2025-12-16 09:40:01 773

原创 Transformer架构的原理是什么？

对于“Thinking”这个词，它的输出向量可能包含了90%它自己的信息和10%“Machines”的信息。而对于“Machines”，它的输出可能包含了70%它自己的信息和30%“Thinking”的信息。Transformer 架构的原理是理解现代大模型（如 GPT、BERT、T5 等）的基石。正是因为这些原理上的优势，Transformer才取代了RNN和CNN，成为了当今AI大模型时代的统治性架构。的（打乱输入顺序，输出可能不变），它没有内置的位置概念。Q·K 然后Softmax。

2025-12-15 09:20:57 806

原创如果生成式模型也能理解，那为什么还需要专门的理解类模型？反之，理解类模型能否生成？

如果生成式模型也能理解，那为什么还需要专门的理解类模型？反之，理解类模型能否生成？地完成一项专门的“理解”任务时，一个精炼的专用理解模型仍然是更优的选择。这是一个极其深刻的问题，它触及了当今AI领域一个非常核心的权衡。理解类模型的“生成”更像是。让我们来彻底拆解这个问题。，而非真正的“创作”。

2025-12-15 09:18:47 797

原创 LLM生成式模型和理解类模型各自是什么？有什么不同?

（尤其是GPT系列）展现出了强大的通用性和惊人的涌现能力，它已经成为当前AI发展的主赛道。人们发现，当一个生成模型足够强大时，它也能通过指令来完成很多理解类任务（比如你可以命令它“分析这段话的情感”）。正在成为一个集大成者，它既能完成复杂的生成任务，也能通过其深厚的“理解”基础，出色地完成许多判别式任务。：一个优秀的生成式模型，必须首先很好地理解你的指令（提示）和上下文，才能生成相关的内容。LLM生成式模型和理解类模型各自是什么？生成式模型和理解类模型代表了两种不同的目标和能力。：这个分类不是绝对的。

2025-12-14 09:55:28 540

原创什么是大模型(LLM)？

大语言模型 = Transformer架构 + 海量互联网文本 + 千亿级参数 + 巨额算力最终产出：一个能够进行对话、翻译、写作、编程、推理的通用语言系统。

2025-12-14 09:55:03 477

原创神经网络的层是什么？

一个层就是一组神经元的集合。处于网络中的同一深度。接收相同来源的输入。执行完全相同类型的操作。信息从输入层开始，依次经过一个又一个的层，每一层都对信息进行一番处理和提炼，直到最终从输出层产生结果。层是神经网络的基本组织单位，它将功能相似的神经元分组。网络通过多层堆叠，实现了对数据从低级特征到高级特征的层级化提取和理解。不同的层类型（输入、隐藏、输出）扮演着不同的角色，共同协作完成从原始输入到最终输出的复杂映射。简单来说，没有层，神经网络就是一盘散沙；

2025-12-13 10:23:39 897

原创多个神经元的不同连接方式是不是就构成了不同的神经网络架构？

设计一个神经网络架构，本质上就是在设计一套“神经元连接规则”。这些规则决定了：信息流动的路径：是前向、循环、还是任意连接？信息的聚合方式：是聚合所有上游信息、局部信息，还是只聚合邻居信息？网络的参数效率：是全连接（参数多）还是局部连接/参数共享（参数少）？网络的适用领域：这种连接规则最适合处理什么类型的数据？（图像、序列、图？因此，“连接方式”是区分不同神经网络架构最根本、最重要的特征。深度学习的创新，很大程度上就是神经元连接方式的创新。

2025-12-13 10:23:19 1413

原创神经元是什么？在深度学习中的数学表达是什么？

假设一个神经元有3个输入：x1x2x30.50.10.8x1x2x30.50.10.8其权重为：w1w2w30.4−0.20.6w1w2w30.4−0.20.6偏置为：b0.1b = 0.1b0.1激活函数使用 ReLU。加权求和z0.5∗0.40.1∗−0.20.8∗0.60.1z0.5∗0.40.1∗−0.20.8∗0.60.1计算z0.2。

2025-12-12 08:01:52 659

原创怎么理解神经网络架构这个概念？

简单来说，深度神经网络的架构，就是一份详细的设计说明书，它规定了网络应该由哪些部件组成、这些部件如何连接、以及数据应该如何在这些部件中流动，以最有效地解决某一类特定问题。理解架构，就是理解不同模型背后的设计哲学和第一性原理。它不是关于具体的参数值（那些是训练出来的），而是关于整体的结构和数据流动的逻辑。

2025-12-12 08:01:21 846

原创深度神经网络的架构都有哪些，各自有什么特点？

架构名称核心思想擅长数据类型主要应用CNN局部连接、参数共享、空间层次聚合网格数据（图像、视频）图像识别、目标检测RNN/LSTM循环连接、顺序处理、短期记忆序列数据（文本、时间序列）语音识别、机器翻译（旧）自注意力机制、全局依赖、并行计算序列数据（特别是文本）大语言模型、机器翻译（新）GAN生成器与判别器对抗博弈任何数据分布图像生成、风格迁移自编码器编码-解码、瓶颈压缩任何数据数据降维、去噪GNN消息传递、邻居聚合图结构数据推荐系统、分子分析发展趋势。

2025-12-11 08:58:30 674

原创除了机器学习领域，其他的人工智能分支是不是现在也用深度神经网络作为工具来解决问题？

工具的统一化深度神经网络已经成为解决感知类问题（视觉、语音、语言）和许多决策类问题的通用、强大工具。范式的转变：各领域的研究重点从“如何设计和表示知识/特征”转向了“如何设计网络结构和损失函数，以便让模型从数据中自己学习”。界限的模糊：正因为都使用深度学习作为底层工具，计算机视觉、自然语言处理、语音等领域正在快速融合，催生了多模态人工智能——即让AI能同时理解和生成图像、文本、语音等多种信息。在今天，如果一个研究人员还在从事计算机视觉或自然语言处理，但他/她不使用深度学习，那几乎是不可能的。

2025-12-11 08:53:00 955

原创深度学习与深度神经网络的关系

深度学习与深度神经网络的关系。

2025-12-10 21:31:39 1088

原创监督学习、无监督学习、强化学习和神经网络是什么关系？

监督、无监督、强化学习是三种“学习范式”。神经网络是一种“模型架构”。一种学习范式可以使用多种模型架构（例如，监督学习既可以用神经网络，也可以用决策树、SVM）。反过来，一种模型架构（如神经网络）也可以用于实现不同的学习范式。它们之间的关系可以用下图清晰地展示：fill:#333;color:#333;color:#333;fill:none;三大学习范式监督学习有标签无监督学习无标签强化学习与环境交互神经网络一种强大的通用模型架构图像分类,语音识别聚类,数据生成。

2025-12-09 11:32:26 931

原创人工智能之下有几个分支，机器学习之下又有几个分支？

例如，现代计算机视觉和自然语言处理几乎完全建立在机器学习的基础上。因此，这些分支之间的界限变得越来越模糊。之外，它还包含许多其他重要领域。人工智能的目标是让机器模拟人类的智能行为。希望这个清晰的梳理能帮助您更好地理解AI的知识体系！CNN, RNN, Transformer等。用符号和逻辑表示知识。让机器理解和生成语言。

2025-12-09 11:12:55 872

原创通过源码在CentOS7下安装Redis

本文详述了Redis在Cent OS7的安装步骤。

2022-09-29 15:04:06 1022

原创 CentOS 安装JDK8

本文简要叙述了在Cent OS上安装jdk1.8的步骤。

2022-04-26 11:57:07 4976

原创华为ECS弹性服务器云盘（CentOS 7）安装系列（二）数据盘安装

华为ECS弹性服务器云盘（CentOS 7）安装系列（二）数据盘安装

2022-04-21 12:08:16 1515

原创华为ECS弹性服务器云盘（CentOS 7）安装系列（一）系统盘扩展

弹性云服务器ECS系统盘扩展（CentOS）

2022-04-19 16:45:25 2468

原创 Spring Boot 多环境配置

大家都知道Spring Boot项目的配置文件是application.yml，Spring Boot在启动时，会从application.yml 中读取配置信息。但在实际应用中，可能会遇到，开发时使用开发环境，测试时使用测试环境，上线时使用生产环境。每个环境的配置都可能不一样，比如开发环境的数据库用的是本地数据库，而生产环境用的是正式的数据库，再比如服务器的IP，端口也不同。那么我们在打包的时候都需要修改相应的配置信息，然后再打包，这样既麻烦又容易出错。下面介绍一种简单的方法，打包时不需要修改配置信息，

2021-12-03 16:08:35 485

原创在Vue开发环境下，如何实现域名访问？

在使用Vue开发时，开发环境一般都使用本机访问。开发环境下，当运行“npm run serve”命令后，在命令行窗口会显示如下信息：App running at:Local: http://localhost:8081/Network: http://192.168.1.23/其中Network显示的是本机的内网IP地址。这时即使你的机器有一个公有IP并绑定了域名，如果想从外网通过域名访问你的应用也访问不了。当然，开发环境原本不鼓励从外网访问，但偶尔也会有需要从外网访问测试一下。这

2021-11-25 14:17:17 4218

原创 Spring Data JPA @Query 注解对空值的处理方法

Spring Data JPA可以理解为对JPA规范的再次封装抽象，默认的底层还是使用了Hibernate的JPA技术实现，使用JPQL（Java Persistence Query Language）作为查询语言，可以通过@Query注解来实现。JPQL是面向对象的查询语言，通过面向对象而非面向数据库的查询语言查询数据，避免程序的SQL语句紧密耦合。下面是一个查询的例子：@Query(value = “select name,author,price from Book b where b.pric

2021-11-24 15:37:48 5253

原创 Spring boot + JPA + MySQL 如何在创建表时自动加 ROW_FORMAT

Spring jpa 中默认使用hibernate做ORM， hibernate会自动根据实体类建表. 这时如果你的表中有text，blob等字段的话经常会报下面这样的错误。Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAMIC

2021-11-24 11:33:07 1079 1

eclipse e4 教程

btsnooz.py脚本

空空如也