- 博客(798)
- 资源 (3)
- 收藏
- 关注
原创 PyTorch实战(32)——在iOS上构建PyTorch应用
在本节中,我们详细介绍了将 PyTorch Mobile 优化的 MNIST 手写数字识别模型部署到 iOS 平台的过程。通过配置 Xcode 开发环境,集成 LibTorch-Lite 库,并利用 Swift 编写摄像头图像采集和处理模块,实现了对手写数字图像的实时拍摄和识别。应用成功将拍摄图像预处理为模型输入格式,执行推理并显示识别结果,验证了移动端模型在 iOS 设备上的有效部署和准确识别能力。
2026-03-02 09:58:39
299
2
原创 PyTorch实战(31)——在Android上部署PyTorch模型
在本节中,我们将学习如何使用 PyTorch Mobile 将 PyTorch 模型部署到移动设备上。PyTorch Mobile 是专为移动和嵌入式平台设计的 PyTorch 子集,支持开发者在智能手机、平板电脑和物联网设备等边缘设备上运行 PyTorch 模型。其底层技术通过优化模型执行和内存使用,确保在移动及嵌入式硬件上实现高效快速的性能表现。
2026-02-27 08:15:00
591
1
原创 PyTorch实战(30)——使用TorchScript和ONNX导出通用PyTorch模型
在本节中,我们将深入探讨使用 TorchScript 导出 PyTorch 模型。通过序列化,TorchScript 使模型与 Python 生态系统独立,从而使得模型可以在其他环境中加载,例如基于 C++ 的环境。我们还跨越 Torch 框架与 Python 生态的边界,研究机器学习通用开放格式 ONNX,该技术能帮助我们将 PyTorch 训练的模型导出至非 PyTorch 甚至非 Python 环境。
2026-02-25 08:30:00
1309
7
原创 Transformer实战(36)——Transformer模型部署
在本节中,学习了如何使用 FastAPI 部署 Transformer 模型,还介绍了如何通过更高级和更高效的方法(例如使用 TFX )来部署模型。接着,学习了负载测试的基础知识以及如何创建用户,并报告压力测试的结果。此外,还了解了 Docker 的基础,并学习了如何将应用打包成 Docker 容器。最后,学习了如何提供基于 Transformer 的模型服务。
2026-02-22 10:39:16
1635
16
原创 PyTorch实战(29)——使用TorchServe部署PyTorch模型
在 PyTorch 深度学习模型部署一节,我们学习了如何使用 Flask 库创建可远程部署、通过网络提供预测服务的模型服务器。在本节中,我们将继续讨论使用 TorchServe 将一个已经训练并测试过的 PyTorch 深度学习模型对象部署到一个独立的环境中,使其能够对新输入数据进行预测或推理。这也称为模型的生产化,即将模型部署到生产系统中。
2026-02-20 08:30:00
613
9
原创 Transformer实战——Transformer跨语言零样本学习
我们已经学习了如何使用单语言模型进行零样本文本分类,使用 XLM-R 进行多语言和跨语言零样本分类与单语言模型使用的方法和代码类似,在本节中,我们将使用 mT5 模型实现跨语言零样本学习。
2026-02-15 10:49:31
613
8
原创 PyTorch实战(28)——PyTorch深度学习模型部署
在本节中,我们探讨了如何将训练好的 PyTorch 深度学习模型部署到生产环境中,成功构建了一个独立运行的模型服务器,能够对手写数字图像进行预测。我们将首先构建一个简易的 PyTorch 推理管道:通过输入数据和预训练模型的存储路径即可完成预测。随后将该推理管道部署至模型服务器,使其能够接收数据请求并返回预测结果。这套方法可以轻松扩展至其他机器学习模型,这为使用 PyTorch 和 Flask 开发机器学习应用开辟了无限可能。
2026-02-11 09:41:08
863
43
原创 Transformer实战——微调多语言Transformer模型
在本节中,我们验证微调后的多语言模型的性能,是否确实比单语言模型差。以土耳其语文本分类(七个类别)为例,我们已经学习了如何微调了一个专门的土耳其语单语言模型,并取得了良好的结果,接下来,我们将重复相同的步骤,保持其他条件不变,仅将土耳其语单语言模型分别替换为 mBERT 和 XLM-R 模型。
2026-02-08 08:15:00
1266
40
原创 Transformer实战——Transformer跨语言文本分类
本节介绍了如何利用跨语言模型在样本稀缺情况下实现文本分类。以低资源语言高棉语为例,使用英语 IMDb 电影评论数据集训练分类器。流程包括:加载并翻译数据集,使用 XLM-R 模型提取句子向量表示,构建并训练分类模型。实验表明,虽然仅用英语训练,模型在高棉语测试集上仍能达到约 72.5% 的准确率,验证了跨语言模型在低资源语言任务中的实用价值。
2026-02-06 10:27:08
1098
38
原创 Transformer实战(35)——跨语言相似性任务
跨语言模型能够以统一的形式表示文本,即使句子来自不同的语言,只要它们的意义相近,就会被映射到向量空间中的相似向量,XLM-R (XLM-Robust) 是流行跨语言模型之一。接下来,我们使用 XLM-R 模型进行实际应用,应用跨语言模型来衡量不同语言之间的相似性。
2026-02-04 08:43:14
1095
29
原创 PyTorch实战——VQ-GAN详解与实现
向量量化生成对抗网络 (Vector Quantized-Generative Adversarial Network, VQ-GAN) 结合了向量量化变分子自编码器 (VQ-VAE) 和生成对抗网络 (GAN) 的优势,通过向量量化 (Vector Quantised, VQ) 构建离散潜空间,结合感知损失与对抗损失,在保持语义一致性的同时能够生成纹理细节丰富的图像。在本节中,我们将详细解释 VQ-GAN 的技术原理和各个组成,并使用 PyTorch 从零开始实现 VQ-GAN。
2026-02-02 10:57:17
906
17
原创 PyTorch实战——VQ-VAE(Vector Quantised-Variational AutoEncoder)
VQ-VAE (Vector Quantised-Variational AutoEncoder) 的核心思想就是将 VAE 的连续潜变量离散化。它通过学习一个码本 (Codebook) 来实现这一点,码本是一个包含有限个嵌入向量的字典。模型不是直接输出一个连续的潜在向量,而是从码本中找出与编码器输出最接近的嵌入向量来代替它。本节首先详细讲解 VQ-VAE 的技术原理,然后使用 PyTorch 从零开始实现 VQ-VAE 模型。
2026-02-02 09:17:07
617
45
原创 PyTorch实战(27)——自动混合精度训练
在将预训练的机器学习模型投入生产环境之前,模型训练是不可或缺的关键环节。随着深度学习的发展,大模型往往具有数百万乃至数十亿参数。使用反向传播来调整这些参数需要大量的内存和计算资源,模型训练可能需要数天甚至数月时间才能完成。在本节中,我们将学习如何借助 torch.cuda.amp.autocast 和 torch.cuda.amp.GradScaler 等 API 实现混合精度训练,在加快深度学习模型训练速度的同时降低内存占用,使用 PyTorch 的自动混合精度工具,加速训练并减少内存消耗。
2026-02-01 08:30:00
1039
48
原创 PyTorch实战(26)——PyTorch分布式训练
在本节中,我们将探讨如何通过跨机器和机器内多进程的分布式训练来加速模型训练过程。我们将系统学习 PyTorch 提供的三大分布式训练 API——torch.distributed、torch.multiprocessing 以及 torch.utils.data.distributed.DistributedSampler,使用这些 API 能够极大的简化分布式训练,介绍如何使用 PyTorch 的分布式训练工具,在 CPU 和 GPU 上加速训练。
2026-01-29 08:56:39
1631
63
原创 PyTorch实战(25)——使用PyTorch构建DQN模型
深度Q网络 (Deep Q-learning Network, DQN) 在强化学习领域取得了巨大的成功和广泛的应用,PyTorch 结合 gymnasium 库为我们提供了强大的工具,支持在各种强化学习环境中测试不同类型的深度强化学习模型。在本节中,我们使用 PyTorch 框架构建使用卷积神经网络架构的 DQN 模型,模型通过自主学习掌握 Atari 经典游戏《Pong》的操作策略,最终实现击败电脑对手的竞技目标。
2026-01-26 09:09:06
1289
60
原创 视觉Transformer实战 | Data-efficient image Transformer(DeiT)详解与实现
在计算机视觉领域,Vision Transformer (ViT) 已经证明了纯 Transformer 架构在图像分类任务上的强大能力。然而,ViT 通常需要在大规模数据集上预训练才能达到最佳性能,DeiT (Data-efficient image Transformer) 通过引入一系列训练策略和优化,使得 Transformer 模型能够在相对较小的数据集上取得优异表现。本节将详细介绍 DeiT 的技术原理,并使用 PyTorch 从零开始实现 DeiT 模型。
2026-01-23 12:47:32
1109
65
原创 PyTorch实战(24)——深度强化学习
强化学习 (RL) 是机器学习的一个基本分支,是当前最热门的研究与发展领域之一。本节系统介绍了强化学习与深度强化学习 (DRL) 的核心概念,并介绍了基于模型和无模型的两类主流算法,其中无模型的Q学习通过价值函数间接优化策略,而深度Q网络通过神经网络近似Q函数,结合双网络架构和经验回放缓冲区解决了高维状态空间的挑战。强化学习在游戏AI、机器人控制等领域展现出强大潜力,是实现通用人工智能的重要路径之一。
2026-01-22 08:24:51
1009
44
原创 Transformer实战(34)——多语言和跨语言Transformer模型
在本节中,我们学习了多语言和跨语言语言模型的预训练,以及单语言和多语言预训练之间的差异。还介绍了因果语言建模 (CLM) 和翻译语言建模 (TLM),对它们有了更深入的了解。还学习了如何使用跨语言模型,利用一种语言的数据集进行训练,对完全不同语言的数据进行测试。此外,我们还了解了可以进行大规模翻译的模型,例如 M2M100,它支持 100 种语言的 9900 个翻译方向,并且我们学习了如何使用 M2M100 模型。
2026-01-20 09:11:30
994
58
原创 数据不再“拖后腿”,EasyLink重塑非结构化数据处理新范式
在人工智能 (Artificial Intelligence, AI) 技术快速发展的今天,高质量的数据预处理已成为决定智能化成败的关键因素 EasyLink 通过创新的非结构化数据处理技术,能够将混乱的多模态数据转化为高质量的 AI 数据准备基础。在本文中,我们将深入探讨 EasyLink 如何通过创新技术架构,实现对复杂文档的语义级理解,对视频内容的结构化解析,以及对全量非结构化数据的端到端处理,并介绍 EasyLink 的技术优势。
2026-01-19 08:40:48
12103
54
原创 PyTorch实战(23)——基于Transformer生成音乐
本文介绍了基于Transformer架构的音乐生成方法,将音乐视为一系列事件序列进行处理。与将音乐表示为多维图像的MuseGAN不同,该方法使用类似GPT的仅解码器模型,基于先前事件预测下一个音乐事件。模型使用MIDI格式的钢琴音乐数据,通过分词处理将音符转换为note-on、note-off、time-shift和velocity四种事件类型,共388个独特词元,映射为索引序列后输入网络。训练完成后,可通过调整温度参数控制生成音乐的新颖性,从而创作出风格类似训练数据且连贯逼真的音乐作品。
2026-01-15 07:36:25
1145
78
原创 PyTorch实战(22)——MuseGAN详解与实现
人工智能音乐生成领域已引起了广泛关注,MuseGAN 是其中一个重要的模型。本节我们将使用 JSB Chorales 数据集来训练 MuseGAN,该数据集包含巴赫创作的四音轨合唱曲。在生成图像时,生成器使用的是来自潜在空间的单一噪声向量来生成不同格式的内容;而在 MuseGAN 中,生成器将使用四个噪声向量来生成一段音乐,旨在增强音乐生成过程中的可控行和多样性。每个噪声向量代表音乐的不同方面,通过单独调整这些向量,模型可以生成更复杂、更细腻的音乐作品。
2026-01-13 06:28:18
1301
63
原创 PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践
本节介绍了为扩散模型添加文本控制能力的方法。通过将 CLIP 文本编码器与 UNet 模型结合,构建文本条件 UNet 架构,使模型能够根据文字描述生成对应图像。文中详细阐述了文本嵌入生成、注意力融合机制等关键技术原理,并基于 Hugging Face 的 diffusers 库,演示了使用预训练 Stable Diffusion 模型实现“文本到图像”生成的具体实践流程,为理解 DALL-E 等主流文生图模型提供了技术基础。
2026-01-09 14:34:23
2520
68
原创 PyTorch实战(21)——扩散模型(Diffusion Model)
扩散模型通过简单的噪声扩散过程,就能创造出高质量的超现实图像。在本节中,我们首先学习了扩散如何用于图像生成,了解了扩散模型的内部运作机制。随后基于动漫图像数据集,使用 PyTorch 和 Hugging Face 框架训练和运行自定义扩散模型,生成逼真动漫图像。
2026-01-08 08:31:46
1070
54
原创 Transformer实战(33)——高效自注意力机制
在本节中,我们学习了如何在硬件资源受限的情况下减轻运行大模型的负担,介绍了高效的稀疏 Transformer 模型,通过近似技术(如 Linformer、BigBird 和 Performer) 用稀疏矩阵替代全自注意力矩阵。并观察它们在各种基准测试中的表现,例如计算复杂度和内存复杂度。结果表明,这些方法可以在不牺牲性能的情况下将平方级复杂度降低到线性复杂度。
2026-01-06 08:37:39
1411
59
原创 PyTorch实战——pix2pix详解与实现
在本节中,我们将探讨与神经风格迁移模型相关的一种生成对抗网络 (Generative Adversarial Network, GAN) 模型。这种特殊类型的 GAN 将图像之间的风格迁移任务进行了扩展,并且进一步提供了一个通用的图像到图像的转换框架,称为 pix2pix,接下来我们将简要解析 pix2pix 架构并使用 PyTorch 实现 pix2pix。
2026-01-04 08:39:17
1495
64
原创 2025年度总结:在代码中思考,于分享中前行
本文总结回顾了2025年度,我以实战和体系化方式分享AI知识的经历。全年通过347篇博客和数十万行代码,聚焦生成式AI(从GAN到扩散模型)和Transformer生态两大主线,致力于在理论与实践中搭建桥梁。我坚持以可运行代码为核心,构建了PyTorch实战、生成模型等系列专栏,形成模块化知识体系。高频输出源于将写作融入学习过程,并珍视读者互动。展望2026年,我计划探索AI智能体和边缘AI,推动技术向更自主、高效的方向发展,继续在分享与思考中前行。
2026-01-02 01:52:56
17357
76
原创 PyTorch实战(20)——生成对抗网络(Generative Adversarial Network,GAN)
自生成对抗网络 (Generative Adversarial Network, GAN) 提出以来,一直是一个活跃的研究和开发领域。本节探索了 GAN 的基本概念,重点解析了其两大核心组件——生成器与判别器的架构设计,深入阐述了 GAN 模型的整体工作机制,并使用 PyTorch 从零开始实现了深度卷积生成对抗网络 (Deep Convolutional GAN, DCGAN)。
2025-12-28 09:59:44
1290
75
原创 PyTorch实战(19)——变分自编码器(Variational Autoencoder,VAE)
变分自编码器 (Variational Autoencoder, VAE) 是一种结合了自编码器和概率建模的生成模型,通过编码器将输入数据映射到潜在空间中的概率分布,并通过解码器将从潜在空间采样得到的潜在变量映射回原始数据空间,实现了数据的生成和特征学习。本节中,将介绍变分自编码器的基本概念,并使用 PyTorch 实现变分自编码器生成新图像。
2025-12-27 08:52:51
682
18
原创 视觉Transformer实战 | Pooling-based Vision Transformer(PiT)详解与实现
Vision Transformer (ViT) 在计算机视觉领域取得了巨大成功,但标准的 ViT 架构在处理不同尺度的视觉特征时存在一定局限性。Pooling-based Vision Transformer (PiT) 通过引入池化操作来改进 ViT 架构,使其能够更有效地处理多尺度特征,同时减少计算复杂度。本节将详细介绍 PiT 的技术原理,并使用 PyTorch 从零开始实现 PiT 模型。
2025-12-25 10:02:35
1036
55
原创 PyTorch实战(18)——自编码器(Autoencoder,AE)
自编码器是一种无监督学习的神经网络模型,用于数据的特征提取和降维。它由编码器和解码器组成,通过将输入数据压缩到低维表示,并尝试重构出原始数据来实现特征提取和数据的降维。自编码器的训练过程中,目标是最小化输入数据与重构数据之间的重建误差,以使编码器捕捉到数据的关键特征。自编码器在无监督学习和深度学习中扮演着重要的角色,能够从数据中学习有用的特征,并为后续的机器学习任务提供支持。
2025-12-24 08:51:24
513
12
原创 Transformer实战(32)——Transformer模型压缩
在本节中,我们学习了如何在硬件资源受限的情况下减轻运行大模型的负担。我们介绍了如何通过蒸馏、剪枝和量化从训练好的模型中提取高效模型。预训练轻量级的通用语言模型(如 DistilBERT) 可以在各种任务上进行微调,并表现出与非蒸馏模型相当的性能。随着数据量的不断增加,我们希望模型能够更快地运行,在这方面,高效 Transformer 起着至关重要的作用。
2025-12-22 09:25:11
957
85
原创 PyTorch实战(17)——神经风格迁移
神经风格迁移是一种利用深度学习技术合成两个图像风格的方法,通过卷积神经网络提取图像的特征表示,并通过优化损失函数的方式合成新的图像,从而创造出独特而富有艺术感的合成图像。在本节中,我们使用 PyTorch 构建了一个神经风格迁移模型,通过使用一张内容图像和一张风格图像,生成了一个融合内容图像和风格图像的新图像。
2025-12-19 08:43:27
1019
75
原创 生成模型实战 | 残差流(Residual Flow)详解与实现
残差流模型 (Residual Flow) 是一种基于归一化流 (Normalizing Flow) 的生成模型,它通过一系列可逆的残差变换将简单分布(如高斯分布)转换为复杂的数据分布。与传统的归一化流不同,残差流使用残差连接来构建可逆变换,这使得模型能够构建更深的网络结构。在本节中,我们将介绍残差流模型的基本原理并使用 PyTorch 从零开始实现残差流模型。
2025-12-17 08:43:13
1000
67
原创 Transformer实战(31)——解释Transformer模型决策
在本节中,我们讨论了人工智能面临的最重要问题之一:可解释人工智能 (explainable artificial intelligence, XAI)。随着语言模型的不断发展,可解释性成为一个严峻的问题。本节中,我们从 Transformer 的角度出发,解释了 Transformer 架构的决策过程,使用了两种模型无关的方法:LIME 和 SHAP。通过这两种技术,我们尝试解释模型在简单的文本分类过程中如何赋予输入(单词)不同的权重。
2025-12-14 10:34:29
1288
80
原创 PyTorch实战(16)——基于LSTM实现音乐生成
本节我们将介绍音乐生成,利用 PyTorch 构建能够创作类古典音乐的机器学习模型。在本节中,我们将采用长短期记忆网络 (Long Short-Term Memory, LSTM) 来处理序列化音乐数据,介绍构建人工智能音乐生成模型的完整流程,重点展示 PyTorch 在数据加载、模型训练和音乐样本生成中的应用。
2025-12-11 11:42:55
1421
91
原创 Transformer实战(30)——Transformer注意力机制可视化
在本节中,我们讨论了人工智能面临的最重要问题之一:可解释人工智能 (explainable artificial intelligence, XAI)。随着语言模型的不断发展,可解释性成为一个严峻的问题。本节中,我们从 Transformer 的角度出发,研究了 Transformer 架构中的自注意力机制,尝试通过各种可视化工具理解这些机制的内部过程。
2025-12-10 08:36:41
1009
40
原创 PyTorch深度学习实战(49)——扩散模型(Diffusion Model)详解与实现
扩散模型通过正向过程逐步向图像添加噪声,再通过逆向过程逐步去噪以生成高质量图像。本节以花卉图像生成为例,详细阐述了扩散模型的数学原理、U-Net 架构及其在去噪中的应用,包括注意力机制和跳跃连接的作用。同时,提供了完整的 PyTorch 实现流程,涵盖数据预处理、模型构建、训练及图像生成步骤,展示了从随机噪声逐步生成清晰花卉图像的过程。
2025-12-10 08:21:25
1718
61
原创 PyTorch实战(15)——基于Transformer的文本生成技术
本节系统介绍了基于 Transformer 架构的文本生成技术。首先通过 PyTorch 构建并训练了 Transformer 语言模型,展示了从模型训练、保存到文本生成的全流程。随后引入预训练模型 GPT-2,详细解析了贪婪搜索、束搜索、Top-k 和 Top-p 等文本生成策略的特点与实现方法,其中 Top-p 采样在保持语义连贯性的同时展现出更好的创造性。最后通过 OpenAI API 演示了 GPT-3 的强大生成能力,实验表明,随着模型规模的扩大和生成策略的优化,文本生成质量显著提升。
2025-12-08 08:54:13
1289
77
原创 Transformer实战(29)——大语言模型(Large Language Model,LLM)
在本节中,我们介绍了大语言模型 (Large Language Model, LLM) 的概念。我们探讨了类似 T5 的模型如何在给定不同提示时生成多样化的响应。此外,我们成功地使用参数高效微调 (Parameter Efficient Fine-Tuning, PEFT) 和量化技术训练了开源语言模型 LLaMA。
2025-12-05 08:36:42
1210
94
原创 PyTorch实战(14)——图注意力网络(Graph Attention Network,GAT)
本节介绍了图注意力网络 (Graph Attention Network, GAT) 在节点分类任务中的应用。相比图卷积网络 (GCN) 的平均聚合机制,GAT 通过引入注意力机制,能够为不同邻居节点分配差异化权重,从而更精准地捕捉图结构信息。实验表明,GAT 在 CiteSeer 数据集上的分类准确率达到 71.1%,较 GCN 提升 2.5 个百分点。可视化结果显示,GAT 学习到的节点表征具有更好的类别区分度。这验证了注意力机制在图数据建模中的有效性,为处理复杂图结构任务提供了更优解决方案。
2025-12-02 11:39:23
1367
89
用于目标检测的 YOLO V3 模型架构及权重文件(含 OpenCV 使用示例)
2021-09-30
用于图像分类的 ResNet-50 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
用于目标检测的 MobileNet-SSD 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅