淵_ken-CSDN博客

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能15：DeepSeek详解

(1) DeepSeek是什么？DeepSeek是一家专注通用人工智能AGI)的中国科技公司，专攻大模型研发与应用DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用(2) DeepSeek可以做什么？直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容(3) 推理模型推理大模型。

2025-07-04 13:57:20 1078

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能14：大模型压缩与部署

(1) 业界大模型压缩工具现状ModelSlim，即昇腾压缩加速工具，一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速，包括模型低秩分解稀疏训练训练后量化量化感知训练等功能，昇腾AI模型开发用户可以灵活调用Python API接口，对模型进行性能调优，并支持导出不同格式模型，在昇腾AI处理器上运行ModelSlim压缩加速工具的安装包括：①开发环境搭建②使用非root用户运行调优任务时，需要管理员将运行用户加入驱动运行用户组。

2025-07-04 12:04:15 1425

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能13：提示工程原理

通过预测词的训练目标、大规模数据集以及超高参数量的模型相结合，产生了性能极强的LLM，它可以“理解”任何文本输入，并在其基础上进行“写作”，除此以外，GPT-3的论文发现，大规模的训练数据会产生一种有趣的新兴行为，称为In Context Learning(又称。下游任务接近预训练中的LM /MLM任务，挖掘模型的潜力，体现在两方面：首先，可以通过prompt的形式使得特征更符合下游任务场景，提高特征质量；的方式而被推广的，能够直接让语言模型根据给定的几个实例理解任务，并给出问题答案；的条件概率分布模型。

2025-07-03 20:00:26 1022

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能12：大模型微调和安全治理

(1) 大模型微调概览(2) SFT介绍监督微调是指在源数据集上预训练一个神经网络模型，即源模型。然后创建一个新的神经网络模型，即目标模型。目标模型复制了源模型上全部或部分模型设计及参数，微调时对目标模型所有层的所有参数进行更新即为全参微调，对部分参数进行更新即为低参微调对于LLM来说，源模型即基础LLM，目标模型为微调LLM微调过程①预训练：首先在一个大规模的数据集上训练一个深度学习模型，例如使用自监督学习或者无监督学习算法进行预训练②微调。

2025-07-03 16:24:17 1587

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能11：MindFormers实战进阶

(1) 大模型使能套件：全流程覆盖大模型开发、训练、微调、推理(2) MindFormers大模型套件介绍(3) MindFormers概述MindFormers套件的目标是构建一个集大模型开发、训练、微调、评估、推理、部署全流程的开发套件，提供业内主流的Transformer类预训练模型和SOTA下游任务应用，涵盖丰富的并行特性(1) MindFormers支持任务及模型列表(1) MindFormers设计整体介绍(1) MindFormers特性整体介绍。

2025-07-03 12:58:14 1024

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能10：DeepSpeed进阶

(1) 大模型训练难点大模型的训练是极具挑战性的：①计算资源消耗巨大：大模型的参数数量和计算量都非常庞大，模型的存储需求超过了单个GPU或TPU的显存容量，这使得在单个设备上直接训练模型变得不可行，因此需要大量的计算资源进行训练，包括高性能计算机、大量的GPU或TPU等②并行难题：在多GPU或多节点间进行数据并行时，如何有效地分配和聚合梯度是一个挑战。简单的数据并行可能导致通信开销增大，并可能引发收敛性问题。为了分散模型在多个设备上的存储压力，模型并行和流水线并行。

2025-07-02 20:17:16 1558

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能09：行业模型选型

在大规模模型的分布式训练场景中，用户倾向于选择较大的Batch尺寸以缩短训练时长，然而过大的Batch尺寸也可能导致Loss曲线呈现上升趋势。Ascend C，面向算子开发场景的编程语言，原生支持C和C++标准规范，最大化匹配用户开发习惯；：参数规模也不是越大越好，Hoffmann等人在Chinchilla系列模型中的研究表明，给定算力、语料的token数与模型的参数个数相当时，模型的表现相对更好。上存在非常大的区别，因此，有些时候我们需要进行模型层面的修改，亲和适配NPU，达到最优的性能。

2025-07-02 16:02:27 1510

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能08：华为智算中心解决方案

(1) 数据中心基础设施系统介绍(2) 数据中心能效定量评估指标 - PUE(3) 数据中心PUE指标要求(4) 数据中心能效模型(5) PUE不同分级的IT耗电测点位置(1) 云数据中心、智算中心与超算中心数据中心即为所有类型数据中心的总称，为集中放置的电子信息设备提供运行环境的建筑场所，可以是一栋或几栋建筑，也可以是一栋建筑物的一部分 -> 按发展阶段来看，数据中心类别主要包括传统物理数据中心IDC(互联网数据中心)、云数据中心以及智算中心①云数据中心是一种基于云计算。

2025-07-01 20:19:17 1475

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能07：MindSpeed领域加速库介绍

目录MindSpeed领域加速库介绍一、大模型分布式训练的趋势及挑战二、昇腾分布式加速库MindSpeed详解。

2025-07-01 13:10:03 768

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能06：昇腾大模型解决方案

(1) 昇腾AI异构计算架构CANN，使能NPU高性能计算(2) 昇腾CANN：向下使能处理器并行加速，向上使能高效开发人工智能代码框架 -> CANN -> NPU(3) 大模型分布式训练需要“可部署、通信快、算得快”三大能力(4) CANN支持业界通用并行策略，使能大模型可部署(5) Ascend C算子编程语言，使能算子极简开发(6) AOE调优AOE(Ascend Optimization Engine)是一款自动调优工具。

2025-07-01 12:30:32 2090

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能05：AI Agent发展趋势

(1) 大模型与小模型优劣势大模型：①多任务处理②很好理解人类的意图③生成相关信息④隐私泄露问题⑤设备、能耗要求高⑥运行成本高昂小模型：①参数量小，能耗小，可以使用在端侧设备上，实现端到端运行②在一些领域中，小模型的处理效果比大模型效果好③训练数据相对单一，好处理④不同任务需要多次处理，相对复杂(2) AI Agent理解将LLM添加上工具插件，实现复杂的功能，有可能对软件进行革命。

2025-06-30 17:21:18 1181

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能04：大模型算法架构

(1) 起点 - TransformerTransformer结构能够捕获输入序列中的长距离依赖关系，同时兼具了更好的并行计算能力。这一结构使得深度学习模型参数突破了1亿，为大型模型的构建定了基础。随后，BERT等预训练模型的推出进一步推动了大模型的发展，使得模型参数量快速增长，并在多个自然语言处理任务上取得了显著的性能提升(2) Transformer模型结构(3) Transformer工作流程：获取输入(4) Transformer工作流程：将输入传入Encoder。

2025-06-30 16:16:43 1250

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能03：数据工程

(1) LLM训练数据介绍构建一个LLM包含预训练微调等多个过程：①其中预训练过程需要的数据量最大，涉及网页数据、开源数据集等，数据质量参差不齐，需要进行大量数据预处理②微调过程需要的数据量相对较小，但质量要求较高，数据预处理的同时需要通过一定方法生成指令数据预训练数据①公开数据网页数据：这类数据的获取最为方便，各个数据相关的公司比如百度、谷歌等每天都会爬取大量的网页存储起来。其特点是量级非常大。

2025-06-29 18:54:44 1451

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能02：大模型应用的数据

(1) 区别对比小模型(传统AI①数据划分方式：(1)训练集：用于训练模型参数的数据(2)验证集(不常用)：用于评价模型训练的阶段结果(3)测试集：真实评价模型训练后具体展示的效果②特点：由于模型功能单一，所以数据量相对较小大模型①数据划分阶段(1)预训练：混合数据(数据量大、训练时间长)，通过不同的获取源信息获取，从而保证数据的质量，提升模型的表达效果。模型没有进行问答对处理，模型只是学习数据的表达规律。模型的表达能力相对较差(2)有监督微调：高质量问答对数据。

2025-06-28 20:17:57 1409

原创【课程笔记】华为 HCIE-AI Solution Architect 人工智能01：大模型业务场景流程综述

(1) GPT-4GPT4是一种最先进的会话语言模型，来自各种来源的大量文本数据的训练，包括社交媒体、书籍和新闻文章。该模型能够对文本输入生成类似人类的响应，使其适用于聊天机器人和对话式人工智能系统等任务。另一方面，GPT-3是一种大规模语言模型，它以及在来自各种来源的大量文本数据上进行了训练。它能够产生类似人类的翻译，可用于广泛的与语言相关的任务(2) LLaMA。

2025-06-28 17:16:20 1699

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能10：知识库查询

(1) 什么是知识库知识库就是用户利用知识管理软件创建一个集中式存储库，该存储库可用于轻松创建、组织、查找和共享知识，将分散在各处的知识集中起来。其结构可以帮助员工或客户找到问题或疑虑的答案。如今，知识库已经成为任何知识管理系统不可分割的一部分。根据其功能，知识库可以区分为：①内部知识库，用于为公司的员工提供服务②外部知识库，为产品或服务的客户提供服务(2) 知识库的发展(1) 什么是RAGRAG(检索增强生成)

2025-06-21 17:14:50 1189

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能09：大模型应用

(1) 什么是下游任务大规模预训练模型的知识面比较广泛，我们可将其看作是“百科全书”。而知识的广度与深度在一定程度上是存在矛盾关系的，为了让其在实际应用中(某些领域)发挥出更好地表现，我们会要求它对某些领域的知识有更深的认知。针对这些特定领域而提出的任务，叫作“下游任务”；相对地，模型在预训练学习时要解决的任务就叫作“上游任务"->上游任务：预训练(打基础，啥都懂点) ，下游任务：领域应用(在特定领域更准确有用)(2) 大模型的微调。

2025-06-20 20:24:00 1230

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能08：人工智能模型部署介绍

目录人工智能模型部署介绍一、模型部署概述二、大模型部署概述三、大模型部署常见优化方式1. 模型压缩2. 计算加速(1) AI应用部署全流程第一步：确定目标和任务目标：自然语言处理、图像生成、图像判断、视频生成自然语言处理分支①判别式大模型()：序列标注、文本分类、意图识别②生成式大模型()：文本生成、文案撰写③翻译类大模型()：语言翻译④Decoder-only和Encoder-Decoder模型区别是什么？

2025-06-20 19:28:40 3482

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能07：模型微调算法和工具简介

目录模型微调算法和工具简介一、大模型微调算法1. 大模型微调种类2. 高效微调技术二、大模型微调开源工具。

2025-06-19 19:36:57 830

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能06：并行训练框架MindFormers介绍

目录并行训练框架MindFormers介绍一、MindFormers设计概览二、MindFormers特性介绍三、MindFormers最佳实践1. 预训练2. 微调3. 推理4. 案例(1) 并行注意事项数据并行Data parallel①原理：将计算设备设置为N个计算节点，每个节点(GPU集群)都保存一份完整的模型参数。同时将数据分为N份，每个节点负责处理1份数据。在前向处理完成后，每个节点单独计算梯度数据。然后使用通信处理，求出梯度平均值，分发给每个节点，进行梯度更新。

2025-06-19 17:52:57 1358

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能05：并行训练框架DeepSpeed介绍

目录并行训练框架DeepSpeed介绍一、DeepSpeed设计概览1. DeepSpeed简介2. DeepSpeed软件架构3. DeepSpeed核心技术二、DeepSpeed使用介绍三、DeepSpeed最佳实践(1) DeepSpeed简介DeepSpeed是一个由微软开发的开源深度学习优化库，皆在提高大规模模型训练的效率和可扩展性。它通过多种技术手段来加速训练，包括模型并行化、梯度累积、动态精度缩放、本地模式混合精度等。

2025-06-19 15:36:26 1329

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能04：华为智算中心解决方案简介

目录华为智算中心解决方案简介一、智算时代数据中心概览1. 数据中心的定义及常用指标2. 智算中心总体方案二、智算中心算力解决方案三、智算中心网络解决方案及关键技术1. AI训练对网络的需求2. 智算中心网络解决方案 - 超融合以太网络3. 华为无损网络关键技术四、智算中心存储解决方案及关键特性(1) 数据中心定义，人工智能计算中心分层概念(2) 数据中心发展史(3) 数据中心物理模型(4) 数据中心关键指标出电率、出柜率(5) PUE WUE 电力面积机柜数的关系。

2025-06-18 19:45:37 1784

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能03：大模型算法基础

(1) 大语言模型定义大语言模型是一种语言模型大语言模型是一种伸经网络语言模型大语言模型是一种预训练语言模型大语言模型最初提出时并没有明确的定义，主要用于：①区别于已有的较小规模并主要用于理解类任务的预训练语言模型(如BERT)②特指规模较大(数十亿到数千亿参数)并具有较强生成能力的语言模型(2) 语言模型定义什么是语言模型？给定一些词序列，预测最有可能的下一个词是什么(3) 语言模型的发展(4) 语言算法演进过程第一个阶段：标注数据驱动的深度学习模型。

2025-06-18 17:53:14 1519

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能02：自然语言处理基础

(1) 大模型与大语言模型“大模型”通常指的是参数数量在数十亿或更多数量级的深度学习模型。当前“大模型”主要是指“大型语言模型”目前，大模型是指具有大规模参数和复杂计算结构的机器学习模型，不仅仅指大语言模型，还包括计算机视觉大模型，多模态大模型等但首次出现在大众视野的是大模型是大语言模型，用于自然语言处理的模型(2) 自然语言以及自然语言处理自然语言是指人类在日常交流中使用的语言，它是通过口头或书面形式传达信息的工具。

2025-06-17 15:15:21 1569

原创【课程笔记】华为 HCIP-AI Solution Architect 人工智能01：大模型业务流程进阶

(1) 解决方案：自然语音处理技术自然语言处理技术被广泛应用于搜索、对话、翻译、推荐等场景中(2) 基础模型：自然语言处理大模型基础模型 -> 开源模型自然语言处理大模型几乎在各种自然语言处理任务通用)上都有良好的表现，作为基础模型，其良好的泛化性能，能显著降低模型在应用场景中的微调成本(3) 行业模型：对话类大模型该企业新员工培养需求，和基础自然语言处理大模型的对话问答能力比较匹配，可选取业界开源/闭源的对话类大模型(基于基础自然语言处理大模型+通用对话问答数据集。

2025-06-16 22:01:13 1879 1

原创【我的Python通关秘籍】从被报错虐到优雅编程03

1. 在Python中，可以表示真假的数据类型是：布尔类型，字面量True表示真，字面量False表示假2. 除了可以定义布尔类型外，还可以通过什么计算得到布尔类型？通过<比较运算符>计算得到布尔类型的结果：== 判断是否相等，!= 判断是否不相等> 判断是否大于，< 判断是否小于>= 判断是否大于等于，<= 判断是否小于等于。

2025-06-16 15:35:47 1316

原创【课程笔记】华为 HCIA-AI Solution 人工智能08：业界大模型及应用

通过文本-图像对或者文本-视频对等对大模型进行训练，然后可以通过文本生成图像、视频或者通过文本编辑图像、视频，比较典型的有Stable Diffusion、Midjourney、Sora等。大语言模型发展从早期的三种路线(Encoder Only，Encoder-Decoder，Decoder Only)同时发展，已经逐步收敛到。：这里的大模型会比前面的两种小很多，是指采用了Transformer架构的视觉模型，比如ViT、SAM、Swin Transformer等。(2) 盘古药物分子大模型。

2025-06-14 19:17:02 464

原创【课程笔记】华为 HCIA-AI Solution 人工智能07：大模型部署与商业模式介绍

目录大模型部署与商业模式介绍一、大模型部署介绍1. 大模型部署流程2. 大模型常用压缩方法3. 大模型常用部署工具4. 大模型推理加速技术5. 大模型应用开发6. 大模型本地部署展望二、大模型商业介绍(1) 大模型部署流程①模型转换：使用不同的框架部署模型要求的模型格式不同，如果当前权重文件格式与框架要求的格式不一致，则需要做模型转换，同时根据部署策略，分布式权重与单个权重也需要做转换②模型压缩：模型压缩可以提高模型推理速度、减少内存占用，但性能会有所降低，可根据实际场景选择③运行参数配置。

2025-06-14 18:58:37 1115

原创【课程笔记】华为 HCIA-AI Solution 人工智能06：昇腾大模型解决方案概述

目录昇腾大模型解决方案概述一、昇腾AI基础软件二、集群监控与运维软件。

2025-06-14 16:33:54 1296

原创【课程笔记】华为 HCIA-AI Solution 人工智能05：华为智算方案和产品介绍

目录华为智算方案和产品介绍一、算力方案和昇腾计算产品介绍二、网络方案和产品介绍三、存储方案和产品介绍四、华为天成解决方案介绍五、数据中心概念(1) 单机多卡训练的原理：①指定主机节点②主机节点划分数据，一个batch数据平均分到每个机器上③模型从主机拷贝到各个机器④每个机器进行前向传播⑤每个机器计算loss损失⑥主机收集所有loss结果，进行参数更新⑦将更新后参数模型拷贝给各个机器(2) Parameter Server架构Parameter Server架构(PS架构，

2025-06-14 14:59:15 1329

原创【课程笔记】华为 HCIA-AI Solution 人工智能04：人工智能业务流程概述

目录人工智能业务流程概述一、人工智能业务流程介绍1. 业务需求2. 数据准备3. 模型选择与设计4. 模型训练5. 模型评估6. 模型部署二、大模型业务流程介绍1. 预训练2. 有监督微调SFT3. RLHF4. 模型评估三、大模型使用与提示工程1. 如何使用大模型2. 提示工程及基础方法3. 高阶提示方法4. 提示框架目的是什么？要解决什么问题？(1) 数据集：互联网公开数据(开发者可以通过爬取互联网上的这些数据来构建其数据集)、专业数据库与机构发布的数据。

2025-06-14 12:37:52 1304

原创【课程笔记】华为 HCIA-AI Solution 人工智能03：人工智能开发框架

特征：数据统一存储与访问、数据的聚合存储与高效读取、高效的数据编写码操作、灵活控制数据切分分区大小。计算流程：设置网络执行的后端、设置特定算子的执行后端、根据计算图算子标志切图、调度不同后端执行子图。优势：Python优先、更加易于学习、动态神经网络、易于Debug、数据并行、社区。优势：支持库管理、开源、数据可视化、Keras兼容性、可扩展、兼容性、架构支持。张量的属性：形状、数据类型、单个元素的大小、维度、元素个数、每一维的步长。(3) 运行态高效：数据处理、计算图的构建、编译优化、动态图直调。

2025-06-12 10:06:06 1233

原创【课程笔记】华为 HCIA-AI Solution 人工智能02：人工智能和算力基础

一种皆在模仿人脑结构及其功能的信息处理系统(1) 序列到序列(Seq2Seq)：由编码器(Encoder)和解码器(Decoder)两部分组成(2) Attention机制：在输入信息中聚焦于更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息(3) 整体架构：Encoder(多头注意力)、Decoder(多头注意力+Masked、多头注意力)(1) 训练(2) 推理。

2025-06-11 18:59:46 1521

原创【课程笔记】华为 HCIA-AI Solution 人工智能01：人工智能概览与发展趋势

(1) 输入输出侧：提示注入(直接提示注入、系统提示泄露、模拟对话、对立相应)、不安全输出、Overreeliance。(3) 模型及服务端：训练数据投毒、过度代理、敏感数据披露、供应链漏洞、不安全插件设计。(1) 语言(Verbal/Linguistic)：用词的思考，如何表达复杂的含义。(5) 音乐(Musical/Rhythmic)：对环境中的非语言声音感知。(3) 空间(Visual/Spatical)：对视觉世界的准确感知。隐私泄露：训练数据泄露、模型输出泄露、模型接口安全风险、模型泄露风险。

2025-06-11 14:26:12 3111

原创【我的Python通关秘籍】从被报错虐到优雅编程02

(1) 字符串的三种定义方式字符串在Python中有多种定义形式：①单引号定义法：name = '你好'②双引号定义法：name = "你好"③三引号定义法：name = """你好""" -> 三引号定义法，和多行注释的写法一样，同样支持换行操作。使用变量接收它，它就是字符串。不使用变量接收它，就可以作为多行注释使用"""演示字符串的三种定义方式：- 单引号定义法- 双引号定义法- 三引号定义法"""# 单引号定义法，使用单引号进行包围name = '你好'# 双引号定义法。

2025-06-08 13:05:36 1115

原创【我的Python通关秘籍】从被报错虐到优雅编程01

编程语言：用于人类和计算机进行交流的一种语言，通过编写编程语言的代码，去指挥计算机工作。它无法直接和计算机沟通，需要翻译工具(解释器或编译器)将代码翻译成二进制，从而实现和计算机的畅顺沟通 -> 总结起来就两个步骤：①写代码 ②翻译代码到二进制。

2025-06-07 13:04:02 970

原创【备赛指南】华为ICT大赛实践赛云赛道25

(1) 语音处理简介语音信号处理简称语音处理，是用以研究语音发声过程、语音信号统计特性、语音自动识别、机器合成以及语音感知等各种处理技术的总称由于现代的语音处理技术都以数字计算为基础，并借助微处理器、信号处理器或通用计算机加以实现，因此也称数字语音信号处理语言信息主要包含在语音信号的参数之中，因此提取语言信号的参数是进行语音信号处理的关键(2) 语音处理主要应用场景①技术类：语音预处理、语音识别、语者识别、语音翻译、语音合成、声纹识别、语音编码②场景类。

2025-06-05 21:12:12 1463

原创【备赛指南】华为ICT大赛实践赛云赛道24

(1) bit：计算机中最小的数据单位，用于存放一位二进制数，即0或1。它也是存储器存储信息的最小单位(2) Byte：是计算机中表示存储容量的最常用的基本单位。它由8个bit组成，通常用于衡量文件大小或内存大小(3) KB(4) MB(5) GB：深度学习(6) TB：深度学习、大模型(7) PB：大模型(8) EB(9) ZB(10) YB注意：YB到KB之间，每下降一个单位等于乘以1024。

2025-06-05 16:19:49 975

原创【备赛指南】华为ICT大赛实践赛云赛道23

(1) 大语言模型是一种语言模型，大语言模型是一种神经网络语言模型，大语言模型是一种预训练语言模型①区别于已有的较小规模并主要用于理解类任务的预训练语言模型(如BERT②特指规模较大(数十亿到数干亿参数)并具有较强生成能力的语言模型(2) 指具有大量参数和计算资源的深度学习型。这些模型在训练过程中需要大量的数据和计算能力，并且具有数十亿参数目的是提高模型的表示能力和性能，在处理复杂任务时能更好地捕捉数据中的模式和规律(3) 大模型“大”的定义①。

2025-06-05 15:35:45 955

原创【备赛指南】华为ICT大赛实践赛云赛道22

Mindspore运行时需指定运行时的环境参数，包括计算图的模式、运行时的设备、内存空间大小等，同时也可以使用API获取当前运行环境的具体信息。，甚至能够在任意长的上下文窗口中存储、学习、表达相关信息，而且不再局限于传统神经网络在空间上的边界，可以在时间序列上有延拓。数据有好的表现，能保持持续的变化。的角度而言，定义好计算图也就意味着框架能够在运行时知道计算图的所有细节，就能对计算图进行更深层次的优化。扫描照片的像素值，卷积核自带的参数就是权重，权值共享意味着每一个卷积核在遍历整个图像时，卷积核的。

2025-06-05 12:34:55 1278

空空如也

空空如也