自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(816)
  • 资源 (3)
  • 收藏
  • 关注

原创 PyTorch强化学习实战(2)——强化学习环境库Gymnasium

在本节中,将介绍 Gymnasium 库的基础知识,该库为强化学习 (Reinforcement Learning, RL) 智能体提供统一 API 接口,并集成了大量 RL 环境。Gymnasium 是 OpenAI Gym 的一个分支,完全兼容原 API。统一环境 API 的价值在于:它能消除模板代码的编写需求,以通用方式实现智能体,而无需关注环境细节。本节中,还将实现随机动作智能体,并深化对 RL 基础概念的理解。

2026-04-23 08:49:28 585 25

原创 Transformer实战(40)——Transformer时间序列数据建模

Transformer 因其在自然语言处理 (Natural Language Processing, NLP) 任务中的优异表现而被广泛应用,其主要优势在于能够有效建模时间序列数据。这些数据可以是文本,也可以是非文本。本节将介绍如何使用 Transformer 进行时间序列数据建模和预测,将学习时间序列的基本概念,并在此基础上使用一个简单的模型,用以初步了解时间序列数据,并为各种预测任务奠定基础。

2026-04-20 16:39:12 645 40

原创 PyTorch强化学习实战(1)——强化学习(Reinforcement Learning,RL)详解

在本节中,开始进入探索强化学习 (Reinforcement Learning, RL) 之旅,首先剖析了强化学习的独特之处及其与监督学习、无监督学习范式的关系。随后系统学习了强化学习的基础形式化框架及其内部关联机制,并深入讲解了马尔可夫过程 (Markov Process, MP)、马尔可夫奖励过程 (Markov Reward Process, MRP) 和马尔可夫决策过程 (Markov Decision Process, MDP),为后续学习奠定基础。

2026-04-17 14:52:19 986 43

原创 视觉Transformer实战 | Swin Transformer详解与实现

Swin Transformer 是基于 Transformer 的视觉骨干网络,其核心思想是通过分层特征映射和移位窗口 (Shifted Windows) 注意力机制设计,实现了更高的计算效率和更好的性能。本文将详细介绍 Swin Transformer 的技术原理,并使用 PyTorch 从零开始实现 Swin Transformer 模型。

2026-04-16 09:03:00 529 35

原创 Transformer实战(39)——多模态生成式Transformer

能够理解多种类型输入的模型被称为多模态模型。多模态学习是人工智能 (Artificial Intelligence, AI) 领域的重要研究方向之一,长期受到众多研究人员的关注。本节将介绍使用多模态模型的生成式 AI,包括文本到图像 (text-to-image) 和文本到音乐 (text-to-music) 的生成模型。将介绍 Stable Diffusion 及其工作原理,同时也将介绍 MusicGen 和 AudioGen 模型。

2026-04-13 10:48:41 760 35

原创 PyTorch实战(41)——Hugging Face在PyTorch中的应用

本节将深入探讨 Hugging Face,并介绍在 PyTorch 中如何借助该平台提升深度学习模型的研究、训练、评估、优化及部署效率。通过本节的学习,将能够在深度学习项目中使用 Hugging Face,能够使用 Hugging Face Hub 中的预训练模型,结合 PyTorch 使用 transformers 库,使用 Accelerate 加速模型训练,使用 Optimum 优化已训练的 PyTorch 模型以便进行部署。

2026-04-10 08:21:23 1169 44

原创 PyTorch实战(40)——使用PyTorch构建推荐系统

在本节中,我们使用 PyTorch 从零开始构建了一个推荐系统。首先探讨了如何利用深度学习驱动推荐系统,随后对 MovieLens 数据集进行探索性分析。通过 PyTorch 定义了 EmbeddingNet 模型架构,并在 MovieLens 数据集上完成训练与评估。最终基于训练好的模型实现了电影推荐系统。

2026-04-07 08:23:36 1120 39

原创 Transformer实战——视觉提示模型

提示模型 (Prompt-based models) 在人工智能的许多领域中备受关注。这类模型能够以某种模式作为指导,并通过理解该模式生成相应的输出。提示可以是多种形式或数据格式,包括文本提示和视觉提示。文本提示是一段自由文本,用于指示模型应执行的任务或输出的内容;而视觉提示则是一种视觉引导,帮助模型理解任务或指令本身。

2026-04-03 08:25:52 1080 38

原创 Transformer实战(38)——视觉Transformer (Vision Transformer, ViT)

Transformer 在自然语言处理 (NLP) 领域取得了显著成就,在许多不同的任务中都表现出色。在本节中,我们将探索视觉 Transformer (Vision Transformer, ViT) 模型。正如 NLP 领域创建了多种模型一样,视觉领域也开发了多种模型,每种模型都为计算机视觉提供了新的视角。通过本节,将学习如何使用 ViT 等模型进行计算机视觉任务,了解基于 Transformer 的预训练计算机视觉模型的工作原理,以及如何针对特定任务进行微调。

2026-03-31 11:09:21 870 78

原创 PyTorch实战(39)——使用Captum解释深度学习模型

本节介绍了使用 Captum 工具包解析 PyTorch 深度学习模型的方法。通过显著图、集成梯度和 DeepLIFT 三种可解释性技术,分析了手写数字分类模型的决策逻辑。这些方法通过计算输入特征对模型输出的梯度贡献,可视化关键像素区域,揭示了模型聚焦于数字笔画特征进行预测的机制。Captum 提供了统一 API 实现多种解释算法,仅需少量代码即可获得直观的可视化结果,帮助开发者理解模型内部运作方式,为模型调试和优化提供依据。

2026-03-28 10:11:52 959 62

原创 PyTorch实战(38)——深度学习模型可解释性

在本节中,我们探讨了如何用 PyTorch 解释深度学习模型的决策机制。具体而言,我们重点分析了卷积神经网络模型卷积层的细节,以理解模型从手写数字图像中学到的视觉特征。我们将观察卷积滤波器/核 (convolutional filters/kernels) 及其生成的特征图 (feature maps)。这些细节有助于我们理解模型如何处理输入图像并做出预测。

2026-03-26 08:36:31 790 58

原创 PyTorch实战(37)——使用Optuna搜索最优超参数

自动机器学习 (AutoML) 能够为给定神经网络自动寻找最优架构与最佳超参数配置。在本节中,我们介绍了一个 AutoML 工具 Optuna,它专为 PyTorch 模型提供超参数搜索功能。通过本节的学习,可以运用 Optuna 为任何 PyTorch 编写的神经网络模型寻找最优超参数。当面对超大规模模型和/或需要调整的超参数数量极多时,Optuna 还支持分布式搜索。

2026-03-23 09:21:08 812 62

原创 PyTorch实战(36)——PyTorch自动机器学习

自动机器学习 (AutoML) 能够为给定神经网络自动寻找最优架构与最佳超参数配置。在本节中,我们将全面地研究 PyTorch 的 AutoML 工具——Auto-PyTorch,该工具能同时执行神经架构搜索和超参数搜索。通过本节学习,即使缺乏领域经验也能设计机器学习模型,同时大幅加速模型选择流程。

2026-03-20 08:45:00 1215 38

原创 视觉Transformer实战 | Cross-Attention Multi-Scale Vision Transformer(CrossViT)详解与实现

Vision Transformer (ViT) 在计算机视觉领域取得了巨大成功,但标准 ViT 结构在处理不同尺度的视觉特征时存在局限性。双分支 ViT (Cross-Attention Multi-Scale Vision Transformer, CrossViT) 通过引入双分支结构来解决这一问题,能够同时捕获局部和全局视觉特征。本文将详细介绍 CrossViT 的技术原理,并使用 PyTorch 从零开始实现 CrossViT 模型。

2026-03-16 08:15:00 569 25

原创 PyTorch实战(35)——使用PyTorch Profiler分析模型推理性能

本节介绍了使用 PyTorch Profiler 工具分析 MNIST 手写数字识别模型在 CPU 与 GPU 上的推理性能。通过记录操作执行时间与内存消耗,可识别计算瓶颈和内存问题。通过本节学习,能够掌握在模型推理过程中进行性能分析的方法,从而能更准确地评估模型在 CPU 和 GPU 上的运行表现。

2026-03-13 08:57:35 1085 67

原创 Transformer实战(37)——Transformer模型训练追踪与监测

在本节中,我们介绍了模型训练追踪工具。我们学习了如何追踪模型训练过程,获得更高质量的模型并进行错误分析。我们使用了两种工具来监控训练过程:TensorBoard 和 W&B,这些工具能够有效地追踪并优化模型训练。

2026-03-10 10:42:50 925 64

原创 PyTorch实战(34)——基于PyTorch Lightning的跨硬件模型训练

在本节中,我们重点介绍了如何从模型训练代码中抽象出冗余的实现细节,以及如何构建快速模型原型开发的核心组件。鉴于 PyTorch 代码常常包含大量此类冗余细节,我们研究了基于 PyTorch 构建的高级库 PyTorch Lightning,该库能用少量代码实现模型训练,并使代码具备硬件无关性。此外,我们还实践了如何使用 PyTorch Lightning 训练和评估手写数字分类模型。

2026-03-07 10:54:01 1064 85

原创 PyTorch实战(33)——使用fastai进行快速原型开发

在本节中,我们对 fastai 进行了简要介绍并将其用于训练 MNIST 手写数字识别模型。fastai 为机器学习工程师和研究人员提供了丰富功能,本节旨在展示 fastai 的高效性和易用性,所学内容可迁移至其他 fastai 机器学习任务。本质上 fastai 基于 PyTorch 功能构建,因此这两个框架可以随时切换使用。

2026-03-05 08:30:00 824 59

原创 PyTorch实战(32)——在iOS上构建PyTorch应用

在本节中,我们详细介绍了将 PyTorch Mobile 优化的 MNIST 手写数字识别模型部署到 iOS 平台的过程。通过配置 Xcode 开发环境,集成 LibTorch-Lite 库,并利用 Swift 编写摄像头图像采集和处理模块,实现了对手写数字图像的实时拍摄和识别。应用成功将拍摄图像预处理为模型输入格式,执行推理并显示识别结果,验证了移动端模型在 iOS 设备上的有效部署和准确识别能力。

2026-03-02 09:58:39 1295 22

原创 PyTorch实战(31)——在Android上部署PyTorch模型

在本节中,我们将学习如何使用 PyTorch Mobile 将 PyTorch 模型部署到移动设备上。PyTorch Mobile 是专为移动和嵌入式平台设计的 PyTorch 子集,支持开发者在智能手机、平板电脑和物联网设备等边缘设备上运行 PyTorch 模型。其底层技术通过优化模型执行和内存使用,确保在移动及嵌入式硬件上实现高效快速的性能表现。

2026-02-27 08:15:00 926 8

原创 PyTorch实战(30)——使用TorchScript和ONNX导出通用PyTorch模型

在本节中,我们将深入探讨使用 TorchScript 导出 PyTorch 模型。通过序列化,TorchScript 使模型与 Python 生态系统独立,从而使得模型可以在其他环境中加载,例如基于 C++ 的环境。我们还跨越 Torch 框架与 Python 生态的边界,研究机器学习通用开放格式 ONNX,该技术能帮助我们将 PyTorch 训练的模型导出至非 PyTorch 甚至非 Python 环境。

2026-02-25 08:30:00 1603 19

原创 Transformer实战(36)——Transformer模型部署

在本节中,学习了如何使用 FastAPI 部署 Transformer 模型,还介绍了如何通过更高级和更高效的方法(例如使用 TFX )来部署模型。接着,学习了负载测试的基础知识以及如何创建用户,并报告压力测试的结果。此外,还了解了 Docker 的基础,并学习了如何将应用打包成 Docker 容器。最后,学习了如何提供基于 Transformer 的模型服务。

2026-02-22 10:39:16 1852 38

原创 PyTorch实战(29)——使用TorchServe部署PyTorch模型

在 PyTorch 深度学习模型部署一节,我们学习了如何使用 Flask 库创建可远程部署、通过网络提供预测服务的模型服务器。在本节中,我们将继续讨论使用 TorchServe 将一个已经训练并测试过的 PyTorch 深度学习模型对象部署到一个独立的环境中,使其能够对新输入数据进行预测或推理。这也称为模型的生产化,即将模型部署到生产系统中。

2026-02-20 08:30:00 914 21

原创 Transformer实战——Transformer跨语言零样本学习

我们已经学习了如何使用单语言模型进行零样本文本分类,使用 XLM-R 进行多语言和跨语言零样本分类与单语言模型使用的方法和代码类似,在本节中,我们将使用 mT5 模型实现跨语言零样本学习。

2026-02-15 10:49:31 679 13

原创 PyTorch实战(28)——PyTorch深度学习模型部署

在本节中,我们探讨了如何将训练好的 PyTorch 深度学习模型部署到生产环境中,成功构建了一个独立运行的模型服务器,能够对手写数字图像进行预测。我们将首先构建一个简易的 PyTorch 推理管道:通过输入数据和预训练模型的存储路径即可完成预测。随后将该推理管道部署至模型服务器,使其能够接收数据请求并返回预测结果。这套方法可以轻松扩展至其他机器学习模型,这为使用 PyTorch 和 Flask 开发机器学习应用开辟了无限可能。

2026-02-11 09:41:08 1150 85

原创 Transformer实战——微调多语言Transformer模型

在本节中,我们验证微调后的多语言模型的性能,是否确实比单语言模型差。以土耳其语文本分类(七个类别)为例,我们已经学习了如何微调了一个专门的土耳其语单语言模型,并取得了良好的结果,接下来,我们将重复相同的步骤,保持其他条件不变,仅将土耳其语单语言模型分别替换为 mBERT 和 XLM-R 模型。

2026-02-08 08:15:00 1336 62

原创 Transformer实战——Transformer跨语言文本分类

本节介绍了如何利用跨语言模型在样本稀缺情况下实现文本分类。以低资源语言高棉语为例,使用英语 IMDb 电影评论数据集训练分类器。流程包括:加载并翻译数据集,使用 XLM-R 模型提取句子向量表示,构建并训练分类模型。实验表明,虽然仅用英语训练,模型在高棉语测试集上仍能达到约 72.5% 的准确率,验证了跨语言模型在低资源语言任务中的实用价值。

2026-02-06 10:27:08 1166 74

原创 Transformer实战(35)——跨语言相似性任务

跨语言模型能够以统一的形式表示文本,即使句子来自不同的语言,只要它们的意义相近,就会被映射到向量空间中的相似向量,XLM-R (XLM-Robust) 是流行跨语言模型之一。接下来,我们使用 XLM-R 模型进行实际应用,应用跨语言模型来衡量不同语言之间的相似性。

2026-02-04 08:43:14 1179 57

原创 PyTorch实战——VQ-GAN详解与实现

向量量化生成对抗网络 (Vector Quantized-Generative Adversarial Network, VQ-GAN) 结合了向量量化变分子自编码器 (VQ-VAE) 和生成对抗网络 (GAN) 的优势,通过向量量化 (Vector Quantised, VQ) 构建离散潜空间,结合感知损失与对抗损失,在保持语义一致性的同时能够生成纹理细节丰富的图像。在本节中,我们将详细解释 VQ-GAN 的技术原理和各个组成,并使用 PyTorch 从零开始实现 VQ-GAN。

2026-02-02 10:57:17 1169 18

原创 PyTorch实战——VQ-VAE(Vector Quantised-Variational AutoEncoder)

VQ-VAE (Vector Quantised-Variational AutoEncoder) 的核心思想就是将 VAE 的连续潜变量离散化。它通过学习一个码本 (Codebook) 来实现这一点,码本是一个包含有限个嵌入向量的字典。模型不是直接输出一个连续的潜在向量,而是从码本中找出与编码器输出最接近的嵌入向量来代替它。本节首先详细讲解 VQ-VAE 的技术原理,然后使用 PyTorch 从零开始实现 VQ-VAE 模型。

2026-02-02 09:17:07 886 46

原创 PyTorch实战(27)——自动混合精度训练

在将预训练的机器学习模型投入生产环境之前,模型训练是不可或缺的关键环节。随着深度学习的发展,大模型往往具有数百万乃至数十亿参数。使用反向传播来调整这些参数需要大量的内存和计算资源,模型训练可能需要数天甚至数月时间才能完成。在本节中,我们将学习如何借助 torch.cuda.amp.autocast 和 torch.cuda.amp.GradScaler 等 API 实现混合精度训练,在加快深度学习模型训练速度的同时降低内存占用,使用 PyTorch 的自动混合精度工具,加速训练并减少内存消耗。

2026-02-01 08:30:00 1295 51

原创 PyTorch实战(26)——PyTorch分布式训练

在本节中,我们将探讨如何通过跨机器和机器内多进程的分布式训练来加速模型训练过程。我们将系统学习 PyTorch 提供的三大分布式训练 API——torch.distributed、torch.multiprocessing 以及 torch.utils.data.distributed.DistributedSampler,使用这些 API 能够极大的简化分布式训练,介绍如何使用 PyTorch 的分布式训练工具,在 CPU 和 GPU 上加速训练。

2026-01-29 08:56:39 1918 67

原创 PyTorch实战(25)——使用PyTorch构建DQN模型

深度Q网络 (Deep Q-learning Network, DQN) 在强化学习领域取得了巨大的成功和广泛的应用,PyTorch 结合 gymnasium 库为我们提供了强大的工具,支持在各种强化学习环境中测试不同类型的深度强化学习模型。在本节中,我们使用 PyTorch 框架构建使用卷积神经网络架构的 DQN 模型,模型通过自主学习掌握 Atari 经典游戏《Pong》的操作策略,最终实现击败电脑对手的竞技目标。

2026-01-26 09:09:06 1545 62

原创 视觉Transformer实战 | Data-efficient image Transformer(DeiT)详解与实现

在计算机视觉领域,Vision Transformer (ViT) 已经证明了纯 Transformer 架构在图像分类任务上的强大能力。然而,ViT 通常需要在大规模数据集上预训练才能达到最佳性能,DeiT (Data-efficient image Transformer) 通过引入一系列训练策略和优化,使得 Transformer 模型能够在相对较小的数据集上取得优异表现。本节将详细介绍 DeiT 的技术原理,并使用 PyTorch 从零开始实现 DeiT 模型。

2026-01-23 12:47:32 1233 68

原创 PyTorch实战(24)——深度强化学习

强化学习 (RL) 是机器学习的一个基本分支,是当前最热门的研究与发展领域之一。本节系统介绍了强化学习与深度强化学习 (DRL) 的核心概念,并介绍了基于模型和无模型的两类主流算法,其中无模型的Q学习通过价值函数间接优化策略,而深度Q网络通过神经网络近似Q函数,结合双网络架构和经验回放缓冲区解决了高维状态空间的挑战。强化学习在游戏AI、机器人控制等领域展现出强大潜力,是实现通用人工智能的重要路径之一。

2026-01-22 08:24:51 1398 49

原创 Transformer实战(34)——多语言和跨语言Transformer模型

在本节中,我们学习了多语言和跨语言语言模型的预训练,以及单语言和多语言预训练之间的差异。还介绍了因果语言建模 (CLM) 和翻译语言建模 (TLM),对它们有了更深入的了解。还学习了如何使用跨语言模型,利用一种语言的数据集进行训练,对完全不同语言的数据进行测试。此外,我们还了解了可以进行大规模翻译的模型,例如 M2M100,它支持 100 种语言的 9900 个翻译方向,并且我们学习了如何使用 M2M100 模型。

2026-01-20 09:11:30 1069 61

原创 数据不再“拖后腿”,EasyLink重塑非结构化数据处理新范式

在人工智能 (Artificial Intelligence, AI) 技术快速发展的今天,高质量的数据预处理已成为决定智能化成败的关键因素 EasyLink 通过创新的非结构化数据处理技术,能够将混乱的多模态数据转化为高质量的 AI 数据准备基础。在本文中,我们将深入探讨 EasyLink 如何通过创新技术架构,实现对复杂文档的语义级理解,对视频内容的结构化解析,以及对全量非结构化数据的端到端处理,并介绍 EasyLink 的技术优势。

2026-01-19 08:40:48 12177 54

原创 PyTorch实战(23)——基于Transformer生成音乐

本文介绍了基于Transformer架构的音乐生成方法,将音乐视为一系列事件序列进行处理。与将音乐表示为多维图像的MuseGAN不同,该方法使用类似GPT的仅解码器模型,基于先前事件预测下一个音乐事件。模型使用MIDI格式的钢琴音乐数据,通过分词处理将音符转换为note-on、note-off、time-shift和velocity四种事件类型,共388个独特词元,映射为索引序列后输入网络。训练完成后,可通过调整温度参数控制生成音乐的新颖性,从而创作出风格类似训练数据且连贯逼真的音乐作品。

2026-01-15 07:36:25 1406 81

原创 PyTorch实战(22)——MuseGAN详解与实现

人工智能音乐生成领域已引起了广泛关注,MuseGAN 是其中一个重要的模型。本节我们将使用 JSB Chorales 数据集来训练 MuseGAN,该数据集包含巴赫创作的四音轨合唱曲。在生成图像时,生成器使用的是来自潜在空间的单一噪声向量来生成不同格式的内容;而在 MuseGAN 中,生成器将使用四个噪声向量来生成一段音乐,旨在增强音乐生成过程中的可控行和多样性。每个噪声向量代表音乐的不同方面,通过单独调整这些向量,模型可以生成更复杂、更细腻的音乐作品。

2026-01-13 06:28:18 1555 67

原创 PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

本节介绍了为扩散模型添加文本控制能力的方法。通过将 CLIP 文本编码器与 UNet 模型结合,构建文本条件 UNet 架构,使模型能够根据文字描述生成对应图像。文中详细阐述了文本嵌入生成、注意力融合机制等关键技术原理,并基于 Hugging Face 的 diffusers 库,演示了使用预训练 Stable Diffusion 模型实现“文本到图像”生成的具体实践流程,为理解 DALL-E 等主流文生图模型提供了技术基础。

2026-01-09 14:34:23 3024 69

用于目标检测的 YOLO V3 模型架构及权重文件(含 OpenCV 使用示例)

用于目标检测的 YOLO V3 模型架构及权重文件,用于执行目标检测推理阶段,可用于构建 OpenCV 目标检测计算机视觉项目,包含 OpenCV 使用示例。

2021-09-30

用于图像分类的 ResNet-50 模型架构及权重文件(使用 Caffe 框架进行预训练)

用于图像分类的 ResNet-50 模型架构及权重文件,使用 Caffe 进行预训练模型执行图像分类,可用于 OpenCV 图像分类计算机视觉项目,包含使用示例。

2021-09-30

用于目标检测的 MobileNet-SSD 模型架构及权重文件(使用 Caffe 框架进行预训练)

用于目标检测的 MobileNet-SSD 模型架构及权重文件,使用 Caffe 进行预训练模型执行目标检测,可用于 OpenCV 目标检测计算机视觉项目,包含使用示例。

2021-09-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除