- 博客(785)
- 资源 (3)
- 收藏
- 关注
原创 PyTorch实战(26)——PyTorch分布式训练
在本节中,我们将探讨如何通过跨机器和机器内多进程的分布式训练来加速模型训练过程。我们将系统学习 PyTorch 提供的三大分布式训练 API——torch.distributed、torch.multiprocessing 以及 torch.utils.data.distributed.DistributedSampler,使用这些 API 能够极大的简化分布式训练,介绍如何使用 PyTorch 的分布式训练工具,在 CPU 和 GPU 上加速训练。
2026-01-29 08:56:39
743
32
原创 PyTorch实战(25)——使用PyTorch构建DQN模型
深度Q网络 (Deep Q-learning Network, DQN) 在强化学习领域取得了巨大的成功和广泛的应用,PyTorch 结合 gymnasium 库为我们提供了强大的工具,支持在各种强化学习环境中测试不同类型的深度强化学习模型。在本节中,我们使用 PyTorch 框架构建使用卷积神经网络架构的 DQN 模型,模型通过自主学习掌握 Atari 经典游戏《Pong》的操作策略,最终实现击败电脑对手的竞技目标。
2026-01-26 09:09:06
1213
38
原创 视觉Transformer实战 | Data-efficient image Transformer(DeiT)详解与实现
在计算机视觉领域,Vision Transformer (ViT) 已经证明了纯 Transformer 架构在图像分类任务上的强大能力。然而,ViT 通常需要在大规模数据集上预训练才能达到最佳性能,DeiT (Data-efficient image Transformer) 通过引入一系列训练策略和优化,使得 Transformer 模型能够在相对较小的数据集上取得优异表现。本节将详细介绍 DeiT 的技术原理,并使用 PyTorch 从零开始实现 DeiT 模型。
2026-01-23 12:47:32
1046
37
原创 PyTorch实战(24)——深度强化学习
强化学习 (RL) 是机器学习的一个基本分支,是当前最热门的研究与发展领域之一。本节系统介绍了强化学习与深度强化学习 (DRL) 的核心概念,并介绍了基于模型和无模型的两类主流算法,其中无模型的Q学习通过价值函数间接优化策略,而深度Q网络通过神经网络近似Q函数,结合双网络架构和经验回放缓冲区解决了高维状态空间的挑战。强化学习在游戏AI、机器人控制等领域展现出强大潜力,是实现通用人工智能的重要路径之一。
2026-01-22 08:24:51
924
28
原创 Transformer实战(34)——多语言和跨语言Transformer模型
在本节中,我们学习了多语言和跨语言语言模型的预训练,以及单语言和多语言预训练之间的差异。还介绍了因果语言建模 (CLM) 和翻译语言建模 (TLM),对它们有了更深入的了解。还学习了如何使用跨语言模型,利用一种语言的数据集进行训练,对完全不同语言的数据进行测试。此外,我们还了解了可以进行大规模翻译的模型,例如 M2M100,它支持 100 种语言的 9900 个翻译方向,并且我们学习了如何使用 M2M100 模型。
2026-01-20 09:11:30
918
34
原创 数据不再“拖后腿”,EasyLink重塑非结构化数据处理新范式
在人工智能 (Artificial Intelligence, AI) 技术快速发展的今天,高质量的数据预处理已成为决定智能化成败的关键因素 EasyLink 通过创新的非结构化数据处理技术,能够将混乱的多模态数据转化为高质量的 AI 数据准备基础。在本文中,我们将深入探讨 EasyLink 如何通过创新技术架构,实现对复杂文档的语义级理解,对视频内容的结构化解析,以及对全量非结构化数据的端到端处理,并介绍 EasyLink 的技术优势。
2026-01-19 08:40:48
4498
54
原创 PyTorch实战(23)——基于Transformer生成音乐
本文介绍了基于Transformer架构的音乐生成方法,将音乐视为一系列事件序列进行处理。与将音乐表示为多维图像的MuseGAN不同,该方法使用类似GPT的仅解码器模型,基于先前事件预测下一个音乐事件。模型使用MIDI格式的钢琴音乐数据,通过分词处理将音符转换为note-on、note-off、time-shift和velocity四种事件类型,共388个独特词元,映射为索引序列后输入网络。训练完成后,可通过调整温度参数控制生成音乐的新颖性,从而创作出风格类似训练数据且连贯逼真的音乐作品。
2026-01-15 07:36:25
1085
76
原创 PyTorch实战(22)——MuseGAN详解与实现
人工智能音乐生成领域已引起了广泛关注,MuseGAN 是其中一个重要的模型。本节我们将使用 JSB Chorales 数据集来训练 MuseGAN,该数据集包含巴赫创作的四音轨合唱曲。在生成图像时,生成器使用的是来自潜在空间的单一噪声向量来生成不同格式的内容;而在 MuseGAN 中,生成器将使用四个噪声向量来生成一段音乐,旨在增强音乐生成过程中的可控行和多样性。每个噪声向量代表音乐的不同方面,通过单独调整这些向量,模型可以生成更复杂、更细腻的音乐作品。
2026-01-13 06:28:18
655
62
原创 PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践
本节介绍了为扩散模型添加文本控制能力的方法。通过将 CLIP 文本编码器与 UNet 模型结合,构建文本条件 UNet 架构,使模型能够根据文字描述生成对应图像。文中详细阐述了文本嵌入生成、注意力融合机制等关键技术原理,并基于 Hugging Face 的 diffusers 库,演示了使用预训练 Stable Diffusion 模型实现“文本到图像”生成的具体实践流程,为理解 DALL-E 等主流文生图模型提供了技术基础。
2026-01-09 14:34:23
2144
67
原创 PyTorch实战(21)——扩散模型(Diffusion Model)
扩散模型通过简单的噪声扩散过程,就能创造出高质量的超现实图像。在本节中,我们首先学习了扩散如何用于图像生成,了解了扩散模型的内部运作机制。随后基于动漫图像数据集,使用 PyTorch 和 Hugging Face 框架训练和运行自定义扩散模型,生成逼真动漫图像。
2026-01-08 08:31:46
1008
54
原创 Transformer实战(33)——高效自注意力机制
在本节中,我们学习了如何在硬件资源受限的情况下减轻运行大模型的负担,介绍了高效的稀疏 Transformer 模型,通过近似技术(如 Linformer、BigBird 和 Performer) 用稀疏矩阵替代全自注意力矩阵。并观察它们在各种基准测试中的表现,例如计算复杂度和内存复杂度。结果表明,这些方法可以在不牺牲性能的情况下将平方级复杂度降低到线性复杂度。
2026-01-06 08:37:39
1370
58
原创 PyTorch实战——pix2pix详解与实现
在本节中,我们将探讨与神经风格迁移模型相关的一种生成对抗网络 (Generative Adversarial Network, GAN) 模型。这种特殊类型的 GAN 将图像之间的风格迁移任务进行了扩展,并且进一步提供了一个通用的图像到图像的转换框架,称为 pix2pix,接下来我们将简要解析 pix2pix 架构并使用 PyTorch 实现 pix2pix。
2026-01-04 08:39:17
1436
64
原创 2025年度总结:在代码中思考,于分享中前行
本文总结回顾了2025年度,我以实战和体系化方式分享AI知识的经历。全年通过347篇博客和数十万行代码,聚焦生成式AI(从GAN到扩散模型)和Transformer生态两大主线,致力于在理论与实践中搭建桥梁。我坚持以可运行代码为核心,构建了PyTorch实战、生成模型等系列专栏,形成模块化知识体系。高频输出源于将写作融入学习过程,并珍视读者互动。展望2026年,我计划探索AI智能体和边缘AI,推动技术向更自主、高效的方向发展,继续在分享与思考中前行。
2026-01-02 01:52:56
17222
75
原创 PyTorch实战(20)——生成对抗网络(Generative Adversarial Network,GAN)
自生成对抗网络 (Generative Adversarial Network, GAN) 提出以来,一直是一个活跃的研究和开发领域。本节探索了 GAN 的基本概念,重点解析了其两大核心组件——生成器与判别器的架构设计,深入阐述了 GAN 模型的整体工作机制,并使用 PyTorch 从零开始实现了深度卷积生成对抗网络 (Deep Convolutional GAN, DCGAN)。
2025-12-28 09:59:44
1238
75
原创 PyTorch实战(19)——变分自编码器(Variational Autoencoder,VAE)
变分自编码器 (Variational Autoencoder, VAE) 是一种结合了自编码器和概率建模的生成模型,通过编码器将输入数据映射到潜在空间中的概率分布,并通过解码器将从潜在空间采样得到的潜在变量映射回原始数据空间,实现了数据的生成和特征学习。本节中,将介绍变分自编码器的基本概念,并使用 PyTorch 实现变分自编码器生成新图像。
2025-12-27 08:52:51
642
17
原创 视觉Transformer实战 | Pooling-based Vision Transformer(PiT)详解与实现
Vision Transformer (ViT) 在计算机视觉领域取得了巨大成功,但标准的 ViT 架构在处理不同尺度的视觉特征时存在一定局限性。Pooling-based Vision Transformer (PiT) 通过引入池化操作来改进 ViT 架构,使其能够更有效地处理多尺度特征,同时减少计算复杂度。本节将详细介绍 PiT 的技术原理,并使用 PyTorch 从零开始实现 PiT 模型。
2025-12-25 10:02:35
996
54
原创 PyTorch实战(18)——自编码器(Autoencoder,AE)
自编码器是一种无监督学习的神经网络模型,用于数据的特征提取和降维。它由编码器和解码器组成,通过将输入数据压缩到低维表示,并尝试重构出原始数据来实现特征提取和数据的降维。自编码器的训练过程中,目标是最小化输入数据与重构数据之间的重建误差,以使编码器捕捉到数据的关键特征。自编码器在无监督学习和深度学习中扮演着重要的角色,能够从数据中学习有用的特征,并为后续的机器学习任务提供支持。
2025-12-24 08:51:24
485
12
原创 Transformer实战(32)——Transformer模型压缩
在本节中,我们学习了如何在硬件资源受限的情况下减轻运行大模型的负担。我们介绍了如何通过蒸馏、剪枝和量化从训练好的模型中提取高效模型。预训练轻量级的通用语言模型(如 DistilBERT) 可以在各种任务上进行微调,并表现出与非蒸馏模型相当的性能。随着数据量的不断增加,我们希望模型能够更快地运行,在这方面,高效 Transformer 起着至关重要的作用。
2025-12-22 09:25:11
914
84
原创 PyTorch实战(17)——神经风格迁移
神经风格迁移是一种利用深度学习技术合成两个图像风格的方法,通过卷积神经网络提取图像的特征表示,并通过优化损失函数的方式合成新的图像,从而创造出独特而富有艺术感的合成图像。在本节中,我们使用 PyTorch 构建了一个神经风格迁移模型,通过使用一张内容图像和一张风格图像,生成了一个融合内容图像和风格图像的新图像。
2025-12-19 08:43:27
987
75
原创 生成模型实战 | 残差流(Residual Flow)详解与实现
残差流模型 (Residual Flow) 是一种基于归一化流 (Normalizing Flow) 的生成模型,它通过一系列可逆的残差变换将简单分布(如高斯分布)转换为复杂的数据分布。与传统的归一化流不同,残差流使用残差连接来构建可逆变换,这使得模型能够构建更深的网络结构。在本节中,我们将介绍残差流模型的基本原理并使用 PyTorch 从零开始实现残差流模型。
2025-12-17 08:43:13
954
67
原创 Transformer实战(31)——解释Transformer模型决策
在本节中,我们讨论了人工智能面临的最重要问题之一:可解释人工智能 (explainable artificial intelligence, XAI)。随着语言模型的不断发展,可解释性成为一个严峻的问题。本节中,我们从 Transformer 的角度出发,解释了 Transformer 架构的决策过程,使用了两种模型无关的方法:LIME 和 SHAP。通过这两种技术,我们尝试解释模型在简单的文本分类过程中如何赋予输入(单词)不同的权重。
2025-12-14 10:34:29
1266
79
原创 PyTorch实战(16)——基于LSTM实现音乐生成
本节我们将介绍音乐生成,利用 PyTorch 构建能够创作类古典音乐的机器学习模型。在本节中,我们将采用长短期记忆网络 (Long Short-Term Memory, LSTM) 来处理序列化音乐数据,介绍构建人工智能音乐生成模型的完整流程,重点展示 PyTorch 在数据加载、模型训练和音乐样本生成中的应用。
2025-12-11 11:42:55
1390
91
原创 Transformer实战(30)——Transformer注意力机制可视化
在本节中,我们讨论了人工智能面临的最重要问题之一:可解释人工智能 (explainable artificial intelligence, XAI)。随着语言模型的不断发展,可解释性成为一个严峻的问题。本节中,我们从 Transformer 的角度出发,研究了 Transformer 架构中的自注意力机制,尝试通过各种可视化工具理解这些机制的内部过程。
2025-12-10 08:36:41
973
39
原创 PyTorch深度学习实战(49)——扩散模型(Diffusion Model)详解与实现
扩散模型通过正向过程逐步向图像添加噪声,再通过逆向过程逐步去噪以生成高质量图像。本节以花卉图像生成为例,详细阐述了扩散模型的数学原理、U-Net 架构及其在去噪中的应用,包括注意力机制和跳跃连接的作用。同时,提供了完整的 PyTorch 实现流程,涵盖数据预处理、模型构建、训练及图像生成步骤,展示了从随机噪声逐步生成清晰花卉图像的过程。
2025-12-10 08:21:25
1483
60
原创 PyTorch实战(15)——基于Transformer的文本生成技术
本节系统介绍了基于 Transformer 架构的文本生成技术。首先通过 PyTorch 构建并训练了 Transformer 语言模型,展示了从模型训练、保存到文本生成的全流程。随后引入预训练模型 GPT-2,详细解析了贪婪搜索、束搜索、Top-k 和 Top-p 等文本生成策略的特点与实现方法,其中 Top-p 采样在保持语义连贯性的同时展现出更好的创造性。最后通过 OpenAI API 演示了 GPT-3 的强大生成能力,实验表明,随着模型规模的扩大和生成策略的优化,文本生成质量显著提升。
2025-12-08 08:54:13
1267
77
原创 Transformer实战(29)——大语言模型(Large Language Model,LLM)
在本节中,我们介绍了大语言模型 (Large Language Model, LLM) 的概念。我们探讨了类似 T5 的模型如何在给定不同提示时生成多样化的响应。此外,我们成功地使用参数高效微调 (Parameter Efficient Fine-Tuning, PEFT) 和量化技术训练了开源语言模型 LLaMA。
2025-12-05 08:36:42
1180
92
原创 PyTorch实战(14)——图注意力网络(Graph Attention Network,GAT)
本节介绍了图注意力网络 (Graph Attention Network, GAT) 在节点分类任务中的应用。相比图卷积网络 (GCN) 的平均聚合机制,GAT 通过引入注意力机制,能够为不同邻居节点分配差异化权重,从而更精准地捕捉图结构信息。实验表明,GAT 在 CiteSeer 数据集上的分类准确率达到 71.1%,较 GCN 提升 2.5 个百分点。可视化结果显示,GAT 学习到的节点表征具有更好的类别区分度。这验证了注意力机制在图数据建模中的有效性,为处理复杂图结构任务提供了更优解决方案。
2025-12-02 11:39:23
1317
89
原创 生成模型实战 | BERT详解与实现
BERT (Bidirectional Encoder Representations from Transformers) 是 Google 在提出的预训练语言模型,它通过 Transformer 编码器结构和掩码语言模型 (Masked Language Model, MLM) 任务,实现了真正的双向上下文理解。在本节中,我们将学习如何从零开始训练自编码语言模型。训练过程包括模型的预训练和针对特定任务的训练。首先,学习 BERT 模型及其工作原理,然后,使用一个简单的小型语料库来训练语言模型。
2025-11-30 14:42:17
1578
103
原创 Transformer实战(28)——使用 LoRA 高效微调 FLAN-T5
本节内容详细介绍了如何使用参数高效微调 (Parameter Efficient Fine-Tuning, PEFT) 方法中的低秩适配 (Low-rank Adaptation, LoRA) 和量化 LoRA (quantized LoRA, QLoRA) 技术,对 FLAN-T5 模型进行高效微调,以解决自然语言推理 (NLI) 问题任务。LoRA 和 QLoRA 在保持模型性能的同时,显著提升了训练效率和资源利用率,尤其适合资源受限的场景。实验结果表明,PEFT 方法在大语言模型应用中具有重要价值。
2025-11-28 08:57:54
1095
85
原创 PyTorch实战(13)——图卷积网络(Graph Convolutional Network,GCN)
图卷积网络 (Graph Convolutional Network, GCN) 模型能够同时结合节点级特征和图级(邻域)信息进行分类,显著提升了图数据建模能力,适用于节点分类、图分类等多种任务。本节中,我们通过 PyTorch Geometric 库在 CiteSeer 图数据集上构建模型,们首先用前馈神经网络作为基线模型完成节点分类任务,随后用 GCN 模型替代前馈网络显著提升了分类准确率。
2025-11-26 15:30:37
903
38
原创 PyTorch实战(12)——图神经网络(Graph Neural Network,GNN)
在本节中,我们首先简要概述了图神经网络 (Graph Neural Network, GNN) 的核心概念与应用,GNN 通过构建计算图分层聚合节点特征,解决了传统神经网络处理图数据时的四大局限:信息深度不足、节点顺序敏感、动态扩展困难和特征稀疏性问题。了解了不同类型的图学习任务(包括节点级、边级和图级三大类)。接着我们研究了几种流行的 GNN 模型,包括:GCN (通过权重共享实现图卷积)、GAT (引入注意力机制区分邻居重要性)和 GraphSAGE (采用随机采样应对大规模图)。
2025-11-26 08:35:41
1339
79
原创 Transformer实战(27)——参数高效微调(Parameter Efficient Fine-Tuning,PEFT)
在本节中,我们讨论了如何利用参数高效微调 (Parameter Efficient Fine-Tuning, PEFT) 使微调过程更加高效。我们介绍了三种不同的 PEFT 方法:加性、选择性和低秩方法。使用 adapter-transformers 和 Hugging Face 的 PEFT 框架进行实践,解决了文本分类任务,在不需要训练整个语言模型的情况下,实现了相近的性能,并节省了大量时间。
2025-11-24 08:46:16
1173
86
原创 视觉Transformer实战 | Token-to-Token Vision Transformer(T2T-ViT)详解与实现
Vision Transformer (ViT) 在计算机视觉领域取得了巨大成功,但标准的 ViT 存在一些局限性,如需要大规模预训练数据、对局部结构建模不足等。Token-to-Token ViT (T2T-ViT) 通过引入渐进式分词过程改进了原始 ViT,使其能够在中小型数据集上取得更好的性能。本节将详细介绍 T2T-ViT 的技术原理,并使用 PyTorch 从零开始实现 T2T-ViT。
2025-11-21 10:04:56
7094
82
原创 PyTorch实战(11)——随机连接神经网络(RandWireNN)
神经架构搜索 (NAS) 是深度学习一个热门领域,与面向特定任务的自动机器学习 (AutoML) 领域高度契合。AutoML 通过自动化数据集加载、架构设计和模型部署,显著降低了机器学习应用门槛。不同于传统人工设计网络结构,我们将实现一种通过架构生成器自动寻找最优拓扑的新型网络——随机连接神经网络 (RandWireNN),RandWireNN 基于自动搜索最优架构的思想,通过随机图生成算法构建网络拓扑。在本节中,我们将探索 NAS,并使用 PyTorch 实现 RandWireNN 模型。
2025-11-19 08:20:13
1198
88
原创 Transformer实战(26)——通过领域适应提升Transformer模型性能
本节探讨了通过领域适应技术提升 Transformer 模型在特定任务中性能的方法。实验表明,在 IMDB 数据集上,经过领域适应的 BERT 模型相比原始 BERT 在情感分析任务中取得了全面提升。领域适应通过缩小预训练与目标领域的数据分布差异,显著提升了模型泛化能力。
2025-11-17 08:36:06
1145
85
原创 PyTorch实战(10)——从零开始实现GPT模型
GPT-2 是由 OpenAI 开发的大语言模型 (LLM)。它标志着自然语言处理 (NLP) 领域的一个重要里程碑,并为更复杂的模型的发展奠定了基础。在本节中,我们将学习如何从零开始构建 GPT-2XL,这是 GPT-2 的最大参数量版本。之后,从 Hugging Face 提取预训练的权重,并将其加载到自定义的 GPT-2 模型中。使用自定义 GPT-2 模型输入提示 (prompt) 来生成文本。此外,我们可以通过使用温度 (temperature) 参数和 top-K 采样来控制生成文本的创意性。
2025-11-14 09:41:16
1471
80
原创 TensorFlow深度学习实战(9)——卷积神经网络应用
在卷积神经网络 (Convolutional Neural Network, CNN) 一节中,我们已讨论了 CNN,CNN 架构能够有效用于图像分类任务中。基本的 CNN 架构可以通过多种方式组合和扩展,以解决各种更复杂的任务。在本节中,我们将研究目标检测、图像分割等计算机视觉任务,并展示如何通过将 CNN 转换为更大、更复杂的架构来解决这些任务。
2025-11-14 08:45:00
1509
15
原创 TensorFlow深度学习实战(43)——TensorFlow.js
TensorFlow.js 是一个强大的工具,使得开发者能够在 JavaScript 环境中进行深度学习的训练与推理。它的主要优势在于能够直接在浏览器和 Node.js 环境中运行,极大地简化了 Web 应用中的机器学习集成。在本节中,我们介绍了如何在原生 JavaScript 和 Node.js 中使用 TensorFlow.js。
2025-11-12 08:30:00
1983
57
原创 TensorFlow深度学习实战——胶囊网络
胶囊网络 (CapsNet) 是一种新型神经网络,解决了传统 CNN 因池化操作丢失空间信息的问题。它通过胶囊向量同时表示特征存在和位置关系,采用动态路由机制根据预测一致性选择信息传递路径,取代了传统的池化方法。这种设计使 CapsNet 在识别重叠数字等复杂任务上表现优于 CNN,其典型结构包含卷积层、主胶囊层和数字胶囊层。
2025-11-11 15:45:00
1155
16
原创 TensorFlow深度学习实战(42)——TensorFlow生态系统
在本节中,我们将学习 TensorFlow 生态系统的不同组件,包括 TensorFlow Hub、TensorFlow Datasets、TensorFlow JS 和 TensorFlow Lite 等。详细介绍 TensorFlow Hub,一个用于预训练深度学习模型的仓库,以及 TensorFlow Datasets,一个提供预定义数据集的集合。我们还将介绍 TensorFlow Lite,一个用于移动和边缘设备的开源深度学习框架。
2025-11-11 11:19:57
1223
5
用于目标检测的 YOLO V3 模型架构及权重文件(含 OpenCV 使用示例)
2021-09-30
用于图像分类的 ResNet-50 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
用于目标检测的 MobileNet-SSD 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅