- 博客(822)
- 资源 (3)
- 收藏
- 关注
原创 PyTorch强化学习实战(6)——交叉熵方法详解与实现
在本节中,介绍了交叉熵方法,尽管有其局限性但简单高效。我们将其应用于 CartPole 环境,并讨论了强化学习方法的分类体系——不同方法具有的特性差异将影响其适用场景。
2026-05-06 15:09:59
64
原创 PyTorch强化学习实战(5)——PyTorch Ignite 事件驱动机制与实践
PyTorch Ignite 通过事件驱动架构,有效减少了深度学习训练中的重复代码。它封装了数据迭代、指标计算、模型保存等通用模式,让开发者能更专注于核心算法逻辑。在掌握 PyTorch 底层原理的基础上,合理使用 Ignite 可以提升开发效率,保持代码简洁性的同时不牺牲灵活性。本节演示了如何使用 Ignite 实现生成对抗网络 (GAN) 生成 Atari 图像,展现了其在实际项目中的实用价值。
2026-05-06 08:25:06
189
26
原创 PyTorch强化学习实战——构建生成对抗网络生成Atari游戏画面
本节通过一个实战,展示了使用 PyTorch 构建生成对抗网络 (Generative Adversarial Networks, GAN) 生成 Atari 游戏画面的完整流程。首先介绍了 GAN 的基本原理:生成器与判别器相互博弈,逐步提升生成图像的真实性。随后详细实现了图像预处理包装类、判别器与生成器的网络结构,以及训练数据生成函数。核心训练过程中,交替优化判别器和生成器。经过迭代训练,生成器能从随机噪声逐渐生成逼真的 Atari 游戏截图,完整演示了 PyTorch 在生成模型中的综合应用能力。
2026-05-03 08:15:00
790
5
原创 PyTorch强化学习实战(4)——PyTorch基础
在本节中,了解了 PyTorch 的功能和特性,涵盖张量与梯度等基础组件,演示了如何用基本模块构建神经网络,然后学习如何实现自定义模块。我们探讨了损失函数、优化器以及训练过程监控方法,为后续学习奠定 PyTorch 基础。
2026-05-01 11:29:15
459
5
原创 TextIn xParse Skill上架ClawHub,补齐Agent“读文档”短板
TextIn xParse Skill 是一个面向 Agent 生态的免费文档解析工具,旨在解决 Agent 无法有效读取PDF、图片、Office 文件等非结构化数据的核心痛点。该工具将商业级文档解析能力以免费 Skill 形式开放,核心能力包括:支持十余种格式的全格式兼容、完整保留文档结构、百页文档约 1.5 秒的极速解析、输出适合 LLM 理解的 Markdown 格式,以及提供精确的坐标信息,在复杂表格、双栏论文、手写体扫描件等场景下表现优异,是 Agent 补齐“阅读能力”的关键基础设施。
2026-04-30 08:44:35
2978
37
原创 PyTorch强化学习实战(3)——Gymnasium API扩展功能
我们已经学习了编写智能体必需的 Gymnasium 核心功能,其余 API 功能部分虽然非必需,但能显著提升开发效率和代码整洁度。在本节中,我们简要地介绍了 Gymnasium API 的扩展功能,学习了如何以模块化的方式扩展现有环境的功能,并熟悉了使用包装器可视化智能体活动的方法。
2026-04-26 18:05:13
867
41
原创 PyTorch强化学习实战(2)——强化学习环境库Gymnasium
在本节中,将介绍 Gymnasium 库的基础知识,该库为强化学习 (Reinforcement Learning, RL) 智能体提供统一 API 接口,并集成了大量 RL 环境。Gymnasium 是 OpenAI Gym 的一个分支,完全兼容原 API。统一环境 API 的价值在于:它能消除模板代码的编写需求,以通用方式实现智能体,而无需关注环境细节。本节中,还将实现随机动作智能体,并深化对 RL 基础概念的理解。
2026-04-23 08:49:28
733
30
原创 Transformer实战(40)——Transformer时间序列数据建模
Transformer 因其在自然语言处理 (Natural Language Processing, NLP) 任务中的优异表现而被广泛应用,其主要优势在于能够有效建模时间序列数据。这些数据可以是文本,也可以是非文本。本节将介绍如何使用 Transformer 进行时间序列数据建模和预测,将学习时间序列的基本概念,并在此基础上使用一个简单的模型,用以初步了解时间序列数据,并为各种预测任务奠定基础。
2026-04-20 16:39:12
780
41
原创 PyTorch强化学习实战(1)——强化学习(Reinforcement Learning,RL)详解
在本节中,开始进入探索强化学习 (Reinforcement Learning, RL) 之旅,首先剖析了强化学习的独特之处及其与监督学习、无监督学习范式的关系。随后系统学习了强化学习的基础形式化框架及其内部关联机制,并深入讲解了马尔可夫过程 (Markov Process, MP)、马尔可夫奖励过程 (Markov Reward Process, MRP) 和马尔可夫决策过程 (Markov Decision Process, MDP),为后续学习奠定基础。
2026-04-17 14:52:19
1522
43
原创 视觉Transformer实战 | Swin Transformer详解与实现
Swin Transformer 是基于 Transformer 的视觉骨干网络,其核心思想是通过分层特征映射和移位窗口 (Shifted Windows) 注意力机制设计,实现了更高的计算效率和更好的性能。本文将详细介绍 Swin Transformer 的技术原理,并使用 PyTorch 从零开始实现 Swin Transformer 模型。
2026-04-16 09:03:00
577
35
原创 Transformer实战(39)——多模态生成式Transformer
能够理解多种类型输入的模型被称为多模态模型。多模态学习是人工智能 (Artificial Intelligence, AI) 领域的重要研究方向之一,长期受到众多研究人员的关注。本节将介绍使用多模态模型的生成式 AI,包括文本到图像 (text-to-image) 和文本到音乐 (text-to-music) 的生成模型。将介绍 Stable Diffusion 及其工作原理,同时也将介绍 MusicGen 和 AudioGen 模型。
2026-04-13 10:48:41
938
35
原创 PyTorch实战(41)——Hugging Face在PyTorch中的应用
本节将深入探讨 Hugging Face,并介绍在 PyTorch 中如何借助该平台提升深度学习模型的研究、训练、评估、优化及部署效率。通过本节的学习,将能够在深度学习项目中使用 Hugging Face,能够使用 Hugging Face Hub 中的预训练模型,结合 PyTorch 使用 transformers 库,使用 Accelerate 加速模型训练,使用 Optimum 优化已训练的 PyTorch 模型以便进行部署。
2026-04-10 08:21:23
1400
41
原创 PyTorch实战(40)——使用PyTorch构建推荐系统
在本节中,我们使用 PyTorch 从零开始构建了一个推荐系统。首先探讨了如何利用深度学习驱动推荐系统,随后对 MovieLens 数据集进行探索性分析。通过 PyTorch 定义了 EmbeddingNet 模型架构,并在 MovieLens 数据集上完成训练与评估。最终基于训练好的模型实现了电影推荐系统。
2026-04-07 08:23:36
1350
69
原创 Transformer实战——视觉提示模型
提示模型 (Prompt-based models) 在人工智能的许多领域中备受关注。这类模型能够以某种模式作为指导,并通过理解该模式生成相应的输出。提示可以是多种形式或数据格式,包括文本提示和视觉提示。文本提示是一段自由文本,用于指示模型应执行的任务或输出的内容;而视觉提示则是一种视觉引导,帮助模型理解任务或指令本身。
2026-04-03 08:25:52
1188
68
原创 Transformer实战(38)——视觉Transformer (Vision Transformer, ViT)
Transformer 在自然语言处理 (NLP) 领域取得了显著成就,在许多不同的任务中都表现出色。在本节中,我们将探索视觉 Transformer (Vision Transformer, ViT) 模型。正如 NLP 领域创建了多种模型一样,视觉领域也开发了多种模型,每种模型都为计算机视觉提供了新的视角。通过本节,将学习如何使用 ViT 等模型进行计算机视觉任务,了解基于 Transformer 的预训练计算机视觉模型的工作原理,以及如何针对特定任务进行微调。
2026-03-31 11:09:21
1012
78
原创 PyTorch实战(39)——使用Captum解释深度学习模型
本节介绍了使用 Captum 工具包解析 PyTorch 深度学习模型的方法。通过显著图、集成梯度和 DeepLIFT 三种可解释性技术,分析了手写数字分类模型的决策逻辑。这些方法通过计算输入特征对模型输出的梯度贡献,可视化关键像素区域,揭示了模型聚焦于数字笔画特征进行预测的机制。Captum 提供了统一 API 实现多种解释算法,仅需少量代码即可获得直观的可视化结果,帮助开发者理解模型内部运作方式,为模型调试和优化提供依据。
2026-03-28 10:11:52
1143
62
原创 PyTorch实战(38)——深度学习模型可解释性
在本节中,我们探讨了如何用 PyTorch 解释深度学习模型的决策机制。具体而言,我们重点分析了卷积神经网络模型卷积层的细节,以理解模型从手写数字图像中学到的视觉特征。我们将观察卷积滤波器/核 (convolutional filters/kernels) 及其生成的特征图 (feature maps)。这些细节有助于我们理解模型如何处理输入图像并做出预测。
2026-03-26 08:36:31
1020
58
原创 PyTorch实战(37)——使用Optuna搜索最优超参数
自动机器学习 (AutoML) 能够为给定神经网络自动寻找最优架构与最佳超参数配置。在本节中,我们介绍了一个 AutoML 工具 Optuna,它专为 PyTorch 模型提供超参数搜索功能。通过本节的学习,可以运用 Optuna 为任何 PyTorch 编写的神经网络模型寻找最优超参数。当面对超大规模模型和/或需要调整的超参数数量极多时,Optuna 还支持分布式搜索。
2026-03-23 09:21:08
1058
62
原创 PyTorch实战(36)——PyTorch自动机器学习
自动机器学习 (AutoML) 能够为给定神经网络自动寻找最优架构与最佳超参数配置。在本节中,我们将全面地研究 PyTorch 的 AutoML 工具——Auto-PyTorch,该工具能同时执行神经架构搜索和超参数搜索。通过本节学习,即使缺乏领域经验也能设计机器学习模型,同时大幅加速模型选择流程。
2026-03-20 08:45:00
1429
38
原创 视觉Transformer实战 | Cross-Attention Multi-Scale Vision Transformer(CrossViT)详解与实现
Vision Transformer (ViT) 在计算机视觉领域取得了巨大成功,但标准 ViT 结构在处理不同尺度的视觉特征时存在局限性。双分支 ViT (Cross-Attention Multi-Scale Vision Transformer, CrossViT) 通过引入双分支结构来解决这一问题,能够同时捕获局部和全局视觉特征。本文将详细介绍 CrossViT 的技术原理,并使用 PyTorch 从零开始实现 CrossViT 模型。
2026-03-16 08:15:00
576
28
原创 PyTorch实战(35)——使用PyTorch Profiler分析模型推理性能
本节介绍了使用 PyTorch Profiler 工具分析 MNIST 手写数字识别模型在 CPU 与 GPU 上的推理性能。通过记录操作执行时间与内存消耗,可识别计算瓶颈和内存问题。通过本节学习,能够掌握在模型推理过程中进行性能分析的方法,从而能更准确地评估模型在 CPU 和 GPU 上的运行表现。
2026-03-13 08:57:35
1293
67
原创 Transformer实战(37)——Transformer模型训练追踪与监测
在本节中,我们介绍了模型训练追踪工具。我们学习了如何追踪模型训练过程,获得更高质量的模型并进行错误分析。我们使用了两种工具来监控训练过程:TensorBoard 和 W&B,这些工具能够有效地追踪并优化模型训练。
2026-03-10 10:42:50
1031
64
原创 PyTorch实战(34)——基于PyTorch Lightning的跨硬件模型训练
在本节中,我们重点介绍了如何从模型训练代码中抽象出冗余的实现细节,以及如何构建快速模型原型开发的核心组件。鉴于 PyTorch 代码常常包含大量此类冗余细节,我们研究了基于 PyTorch 构建的高级库 PyTorch Lightning,该库能用少量代码实现模型训练,并使代码具备硬件无关性。此外,我们还实践了如何使用 PyTorch Lightning 训练和评估手写数字分类模型。
2026-03-07 10:54:01
1273
85
原创 PyTorch实战(33)——使用fastai进行快速原型开发
在本节中,我们对 fastai 进行了简要介绍并将其用于训练 MNIST 手写数字识别模型。fastai 为机器学习工程师和研究人员提供了丰富功能,本节旨在展示 fastai 的高效性和易用性,所学内容可迁移至其他 fastai 机器学习任务。本质上 fastai 基于 PyTorch 功能构建,因此这两个框架可以随时切换使用。
2026-03-05 08:30:00
1074
59
原创 PyTorch实战(32)——在iOS上构建PyTorch应用
在本节中,我们详细介绍了将 PyTorch Mobile 优化的 MNIST 手写数字识别模型部署到 iOS 平台的过程。通过配置 Xcode 开发环境,集成 LibTorch-Lite 库,并利用 Swift 编写摄像头图像采集和处理模块,实现了对手写数字图像的实时拍摄和识别。应用成功将拍摄图像预处理为模型输入格式,执行推理并显示识别结果,验证了移动端模型在 iOS 设备上的有效部署和准确识别能力。
2026-03-02 09:58:39
1504
22
原创 PyTorch实战(31)——在Android上部署PyTorch模型
在本节中,我们将学习如何使用 PyTorch Mobile 将 PyTorch 模型部署到移动设备上。PyTorch Mobile 是专为移动和嵌入式平台设计的 PyTorch 子集,支持开发者在智能手机、平板电脑和物联网设备等边缘设备上运行 PyTorch 模型。其底层技术通过优化模型执行和内存使用,确保在移动及嵌入式硬件上实现高效快速的性能表现。
2026-02-27 08:15:00
1154
8
原创 PyTorch实战(30)——使用TorchScript和ONNX导出通用PyTorch模型
在本节中,我们将深入探讨使用 TorchScript 导出 PyTorch 模型。通过序列化,TorchScript 使模型与 Python 生态系统独立,从而使得模型可以在其他环境中加载,例如基于 C++ 的环境。我们还跨越 Torch 框架与 Python 生态的边界,研究机器学习通用开放格式 ONNX,该技术能帮助我们将 PyTorch 训练的模型导出至非 PyTorch 甚至非 Python 环境。
2026-02-25 08:30:00
1845
19
原创 Transformer实战(36)——Transformer模型部署
在本节中,学习了如何使用 FastAPI 部署 Transformer 模型,还介绍了如何通过更高级和更高效的方法(例如使用 TFX )来部署模型。接着,学习了负载测试的基础知识以及如何创建用户,并报告压力测试的结果。此外,还了解了 Docker 的基础,并学习了如何将应用打包成 Docker 容器。最后,学习了如何提供基于 Transformer 的模型服务。
2026-02-22 10:39:16
1975
38
原创 PyTorch实战(29)——使用TorchServe部署PyTorch模型
在 PyTorch 深度学习模型部署一节,我们学习了如何使用 Flask 库创建可远程部署、通过网络提供预测服务的模型服务器。在本节中,我们将继续讨论使用 TorchServe 将一个已经训练并测试过的 PyTorch 深度学习模型对象部署到一个独立的环境中,使其能够对新输入数据进行预测或推理。这也称为模型的生产化,即将模型部署到生产系统中。
2026-02-20 08:30:00
1111
21
原创 Transformer实战——Transformer跨语言零样本学习
我们已经学习了如何使用单语言模型进行零样本文本分类,使用 XLM-R 进行多语言和跨语言零样本分类与单语言模型使用的方法和代码类似,在本节中,我们将使用 mT5 模型实现跨语言零样本学习。
2026-02-15 10:49:31
790
13
原创 PyTorch实战(28)——PyTorch深度学习模型部署
在本节中,我们探讨了如何将训练好的 PyTorch 深度学习模型部署到生产环境中,成功构建了一个独立运行的模型服务器,能够对手写数字图像进行预测。我们将首先构建一个简易的 PyTorch 推理管道:通过输入数据和预训练模型的存储路径即可完成预测。随后将该推理管道部署至模型服务器,使其能够接收数据请求并返回预测结果。这套方法可以轻松扩展至其他机器学习模型,这为使用 PyTorch 和 Flask 开发机器学习应用开辟了无限可能。
2026-02-11 09:41:08
1354
85
原创 Transformer实战——微调多语言Transformer模型
在本节中,我们验证微调后的多语言模型的性能,是否确实比单语言模型差。以土耳其语文本分类(七个类别)为例,我们已经学习了如何微调了一个专门的土耳其语单语言模型,并取得了良好的结果,接下来,我们将重复相同的步骤,保持其他条件不变,仅将土耳其语单语言模型分别替换为 mBERT 和 XLM-R 模型。
2026-02-08 08:15:00
1454
62
原创 Transformer实战——Transformer跨语言文本分类
本节介绍了如何利用跨语言模型在样本稀缺情况下实现文本分类。以低资源语言高棉语为例,使用英语 IMDb 电影评论数据集训练分类器。流程包括:加载并翻译数据集,使用 XLM-R 模型提取句子向量表示,构建并训练分类模型。实验表明,虽然仅用英语训练,模型在高棉语测试集上仍能达到约 72.5% 的准确率,验证了跨语言模型在低资源语言任务中的实用价值。
2026-02-06 10:27:08
1274
74
原创 Transformer实战(35)——跨语言相似性任务
跨语言模型能够以统一的形式表示文本,即使句子来自不同的语言,只要它们的意义相近,就会被映射到向量空间中的相似向量,XLM-R (XLM-Robust) 是流行跨语言模型之一。接下来,我们使用 XLM-R 模型进行实际应用,应用跨语言模型来衡量不同语言之间的相似性。
2026-02-04 08:43:14
1304
57
原创 PyTorch实战——VQ-GAN详解与实现
向量量化生成对抗网络 (Vector Quantized-Generative Adversarial Network, VQ-GAN) 结合了向量量化变分子自编码器 (VQ-VAE) 和生成对抗网络 (GAN) 的优势,通过向量量化 (Vector Quantised, VQ) 构建离散潜空间,结合感知损失与对抗损失,在保持语义一致性的同时能够生成纹理细节丰富的图像。在本节中,我们将详细解释 VQ-GAN 的技术原理和各个组成,并使用 PyTorch 从零开始实现 VQ-GAN。
2026-02-02 10:57:17
1401
18
原创 PyTorch实战——VQ-VAE(Vector Quantised-Variational AutoEncoder)
VQ-VAE (Vector Quantised-Variational AutoEncoder) 的核心思想就是将 VAE 的连续潜变量离散化。它通过学习一个码本 (Codebook) 来实现这一点,码本是一个包含有限个嵌入向量的字典。模型不是直接输出一个连续的潜在向量,而是从码本中找出与编码器输出最接近的嵌入向量来代替它。本节首先详细讲解 VQ-VAE 的技术原理,然后使用 PyTorch 从零开始实现 VQ-VAE 模型。
2026-02-02 09:17:07
1105
46
原创 PyTorch实战(27)——自动混合精度训练
在将预训练的机器学习模型投入生产环境之前,模型训练是不可或缺的关键环节。随着深度学习的发展,大模型往往具有数百万乃至数十亿参数。使用反向传播来调整这些参数需要大量的内存和计算资源,模型训练可能需要数天甚至数月时间才能完成。在本节中,我们将学习如何借助 torch.cuda.amp.autocast 和 torch.cuda.amp.GradScaler 等 API 实现混合精度训练,在加快深度学习模型训练速度的同时降低内存占用,使用 PyTorch 的自动混合精度工具,加速训练并减少内存消耗。
2026-02-01 08:30:00
1503
51
原创 PyTorch实战(26)——PyTorch分布式训练
在本节中,我们将探讨如何通过跨机器和机器内多进程的分布式训练来加速模型训练过程。我们将系统学习 PyTorch 提供的三大分布式训练 API——torch.distributed、torch.multiprocessing 以及 torch.utils.data.distributed.DistributedSampler,使用这些 API 能够极大的简化分布式训练,介绍如何使用 PyTorch 的分布式训练工具,在 CPU 和 GPU 上加速训练。
2026-01-29 08:56:39
2131
67
原创 PyTorch实战(25)——使用PyTorch构建DQN模型
深度Q网络 (Deep Q-learning Network, DQN) 在强化学习领域取得了巨大的成功和广泛的应用,PyTorch 结合 gymnasium 库为我们提供了强大的工具,支持在各种强化学习环境中测试不同类型的深度强化学习模型。在本节中,我们使用 PyTorch 框架构建使用卷积神经网络架构的 DQN 模型,模型通过自主学习掌握 Atari 经典游戏《Pong》的操作策略,最终实现击败电脑对手的竞技目标。
2026-01-26 09:09:06
1765
62
原创 视觉Transformer实战 | Data-efficient image Transformer(DeiT)详解与实现
在计算机视觉领域,Vision Transformer (ViT) 已经证明了纯 Transformer 架构在图像分类任务上的强大能力。然而,ViT 通常需要在大规模数据集上预训练才能达到最佳性能,DeiT (Data-efficient image Transformer) 通过引入一系列训练策略和优化,使得 Transformer 模型能够在相对较小的数据集上取得优异表现。本节将详细介绍 DeiT 的技术原理,并使用 PyTorch 从零开始实现 DeiT 模型。
2026-01-23 12:47:32
1237
68
用于目标检测的 YOLO V3 模型架构及权重文件(含 OpenCV 使用示例)
2021-09-30
用于图像分类的 ResNet-50 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
用于目标检测的 MobileNet-SSD 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅