盼小辉丶-CSDN博客

原创图神经网络实战（11）——Weisfeiler-Leman测试

在本节中，我们定义了图神经网络 (Graph Neural Networks, GNN) 的表达能力，这一定义基于 WL 测试算法，它可以输出图的规范形式。虽然这种算法并不完美，但可以区分大多数图结构。

2024-05-23 08:44:25 474 10

原创 PyTorch深度学习实战（43）——手写文本识别

手写文本识别，也称为手写文本的光学字符识别 (Optical Character Recognition, OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手写文本在风格、大小和质量方面变化巨大，这使得识别和转录变得更加困难。在本节中，我们将学习如何根据手写文字图像输入生成字符序列，为了提高手写图像的转录性能，将引入 CTC 损失函数。

2024-05-21 08:30:10 616 21

原创 PyTorch深度学习实战（42）——图像字幕生成

图像字幕生成模型在计算机视觉和自然语言处理等领域具有广泛的应用。它可以用于自动图像标注、图像搜索和辅助视觉障碍者等方面。图像字幕生成模型的目标是实现对图像的语义理解和描述生成，从而更好地连接图像和文本信息。在本节中，我们学习如何利用 CNN 和 LSTM 构建模型为图像生成描述字幕。

2024-05-17 08:23:53 862 37

原创图神经网络实战（10）——归纳学习

在本节中，我们将介绍图数据中的归纳学习和多标签分类，使用 GraphSAGE 模型在蛋白质相互作用 (protein-protein interactions) 数据集执行多标签分类任务，并了解归纳学习的优势和实现方法。

2024-05-13 09:11:33 1591 48

原创 AIGC实战——多模态模型DALL.E 2

DALL.E 2 是 OpenAI 提出的一个大规模文本生成图像模型，可以根据文本提示生成各种风格的逼真图像。它通过将预训练模型 CLIP 与 GLIDE 中的扩散模型架构相结合完成任务。它还具有其他应用，例如通过文本提示编辑图像和提供给定图像的变体。虽然它也有一些局限性，例如不一致的文本渲染和属性绑定，但 DALL.E 2 是仍然一个非常强大的AI模型，推动了生成模型的发展。

2024-05-08 09:23:24 1508 32

原创图神经网络实战（9）——GraphSAGE详解与实现

本节介绍了 GraphSAGE 框架及其两个组成部分——邻居采样算法和三个不同的聚合算子，其中邻居采样是 GraphSAGE 能够高效处理大规模图的核心。并使用 PyTorch Geometric 构建 GraphSAGE 模型在 PubMed 数据集上执行节点分类，GraphSAGE 虽然准确率略低于 GCN 或 GAT 模型，但它是常用于处理大规模图数据的高效框架。

2024-05-06 08:42:11 1480 28

原创 AIGC实战——MuseGAN详解与实现

可以将音乐生成视为一个图像生成问题，这意味着可以不使用 Transformer，而是应用在图像生成问题中表现出色的基于卷积的技术，例如生成对抗网络 (Generative Adversarial Network, GAN)。本节中，我们将解决多声部音乐生成的问题，并探讨如何使用基于 GAN 架构创建多声部音乐。

2024-05-04 08:07:03 1933 26

原创 PyTorch深度学习实战（41）——循环神经网络与长短期记忆网络

循环神经网络 (Recurrent Neural Network, RNN) 通过将前一个时间步的隐藏状态作为当前时间步的输入，实现对序列数据的建模，由于循环连接的存在，RNN 能够捕获时间依赖关系，然而，RNN 在处理长期依赖性问题时会遇到困难。为了解决这个问题，提出了 LSTM，通过引入门控机制改进 RNN 来有效地处理长期依赖关系。在本节中，了解了 LSTM 和 RNN 的基本原理，并介绍了如何在 PyTorch 中实现 LSTM。

2024-04-28 08:25:13 3369 43

原创 AIGC实战——基于Transformer实现音乐生成

Transformer 是最流行的音乐生成技术之一，因为音乐可以视为一个序列预测问题，Transformer 模型将音符视为一个个符号的序列(类似于句子中的单词)，从而用于生成音乐。Transformer 模型基于先前音符预测下一个音符，生成音乐作品。在本节中，将学习如何处理音乐数据，并应用 Transformer 生成与给定训练集风格相似的音乐。

2024-04-24 08:12:16 3280 58

原创图神经网络实战（8）——图注意力网络(Graph Attention Networks, GAT)

图注意力网络 (Graph Attention Networks, GAT) 是对图卷积网络 (Graph Convolutional Network, GCN) 的改进，提出了一种通过自注意力 (self-attention) 过程计算的加权因子，而不是使用静态的归一化系数。在本节中，我们介绍了 GAT 架构。通过从线性变换到多头注意力的四个主要步骤，了解了 GAT 的工作原理，并在 NumPy 中从零开始构建了 GAT 层。最后，将 GAT 模型应用于 Cora 和 CiteSeer 数据集。

2024-04-22 08:20:25 2540 29

原创 AIGC实战——VQ-GAN(Vector Quantized Generative Adversarial Network)

在 VQ-GAN 模型中，将几种不同类型的生成模型进行有效地组合，VQ-GAN 通过额外的对抗损失项鼓励 VAE 生成更清晰的图像。使用自回归T ransformer 构建了一系列能够由 VAE 解码器解码的编码符号。ViT VQ-GAN 进一步扩展了这一思想，将 VQ-GAN 的卷积编码器和解码器替换为 Transformers。

2024-04-17 08:04:26 8091 100

原创图神经网络实战——利用节点回归预测网络流量

在机器学习中，回归指的是对连续值的预测。通常与分类形成鲜明对比，分类的目标是找到正确的类别(即离散值，而非连续值)。在图数据中，分类和回归分别对应于节点分类和节点回归。在本节中，我们将尝试预测每个节点的连续值，而非分类变量。

2024-04-15 07:26:53 1977 60

原创 AIGC实战——StyleGAN(Style-Based Generative Adversarial Network)

StyleGAN (Style-Based Generative Adversarial Network) 是于 2018 年提出的一种生成对抗网络 (Generative Adversarial Network, GAN) 架构，该架构建立在 ProGAN 基础之上。实际上，StyleGAN 与 ProGAN 的判别器是相同的，只有生成器发生了变化。本节中，我们将介绍 StyleGAN 架构。

2024-04-10 07:32:48 4788 112

原创 AIGC实战——ProGAN(Progressive Growing Generative Adversarial Network)

我们已经学习了使用生成对抗网络 (Generative Adversarial Network, GAN) 解决各种图像生成任务。GAN 的模型架构和训练过程具有很高的灵活性，通过改进 GAN 架构设计和训练过程，研究人员提出了多种不同的网络架构，本节中，我们将介绍 ProGAN (Progressive Growing Generative Adversarial Network) 架构。

2024-04-07 09:02:04 2256 97

原创图神经网络实战（7）——图卷积网络(Graph Convolutional Network, GCN)详解与实现

图卷积网络 (Graph Convolutional Network, GCN) 架构由 Kipf 和 Welling 于 2017 年提出，其理念是创建一种适用于图的高效卷积神经网络。在本节中，我们将讨论 Vanilla GNN 架构的局限性，并详细介绍 GCN 的工作原理，通过使用 PyTorch Geometric 在 Cora 和 Facebook Page-Page 数据集上实现 GCN 来验证其性能。

2024-04-03 07:24:39 3521 82

原创 PyTorch深度学习实战（40）——零样本学习(Zero-Shot Learning)

零样本学习 (Zero-Shot Learning) 旨在解决传统监督学习中，当训练数据中不存在某个类别的样本时，如何对该类别进行分类的问题。在传统监督学习中，分类模型需要通过训练数据学习到每个类别的特征和模式，并在测试阶段根据这些学习到的知识对新样本进行分类。然而，在现实世界中，我们无法获得所有可能类别的训练样本，因此零样本学习成为了一种重要的解决方案。在本节中，我们将学习零样本学习的基本概念，并使用 PyTorch 实现零样本学习模型。

2024-04-01 08:18:26 1880 68

原创图神经网络实战（6）——使用PyTorch构建图神经网络

图数据集通常比简单的连接集合更加丰富，因为节点和边可以具有表示分数、颜色、单词等特征。包含这些额外信息在输入数据中对于生成最佳嵌入至关重要。在本节中，我们将使用 Cora 和 Facebook Page-Page 数据集，首先将它们视为表格数据集，观察香草神经网络在节点特征上的表现如何。然后，尝试在神经网络中加入拓扑信息，实现图神经网络 (Graph Neural Networks, GNN) 架构：一个同时考虑节点特征和边的简单模型。最后，我们将比较两种架构的性能。

2024-03-28 07:14:54 3138 128

原创 AIGC实战——Transformer模型

GPT 模型是一个解码器 Transformer，它逐字符地生成文本字符串，并使用因果掩码只关注输入字符串中的前一个单词。另一些编码器 Transformer，不使用因果掩码，而是关注整个输入字符串以提取有意义的上下文表示。对于一些其他任务，如语言翻译，可以使用编码器-解码器 Transformer，将一个文本字符串翻译为另一个文本字符串，这类模型包含编码器 Transformer 块和解码器 Transformer 块。

2024-03-25 07:18:27 3061 108

原创图神经网络实战（5）——常用图数据集

Cora 和 Facebook Page-Page 是图神经网络领域中经常使用的两个基准图数据集，通常用来比较不同模型的性能。在本节中，介绍了如何使用 PyTorch Geometric 库提供的数据集类加载 Cora 和 Facebook Page-Page 数据集，并探索了两个数据集的主要特征。

2024-03-20 07:46:53 2328 92

原创 PyTorch深度学习实战（39）——小样本学习(Few-shot Learning)

小样本学习 (Few-shot Learning) 旨在解决在训练集中只有很少样本的情况下进行分类和推理的问题。在小样本学习中，我们希望通过利用已有的少量样本和先验知识来进行泛化，以便在面对新的、未见过的类别时能够做出准确的预测。这就要求模型能够从有限的训练样本中提取出有用的信息，并能够将这些信息应用到新类别的样本中去。在本节中，将介绍孪生、原型和关系网络的原理，并使用 PyTorch 实现孪生网络。

2024-03-18 08:25:58 1770 66

原创图神经网络实战——基于Node2Vec的电影推荐系统

在电影推荐系统中，可以将每部电影视为一个节点，而节点之间的连接则表示电影之间的关联或相似性。Node2Vec 算法可以在电影图谱上学习出每部电影的向量表示，这些向量可以捕获电影之间的隐含关系，例如共同的演员、导演、类型等等。一旦得到了电影的向量表示，就可以使用这些表示来计算电影之间的相似度，并基于相似度来进行推荐。通过将用户喜欢的电影与其向量表示进行比较，系统可以推荐与之相似的其他电影。在本节中，构建基于 Node2Vec 的电影推荐系统。

2024-03-14 08:01:54 1245 71

原创 AIGC实战——GPT(Generative Pre-trained Transformer)

注意力机制能够用于构建先进的文本生成模型，Transformer 是用于序列建模的强大神经网络，该神经网络不需要复杂的循环或卷积架构，而只依赖于注意力机制。这种方法克服了循环神经网络难以并行化的缺陷。Transformers 高度可并行化运算，能够在大规模数据集上进行训练。在本节中，我们将学习文本生成模型如何利用 Transformer 架构提高文本性能，并介绍自回归模型 GPT (Generative Pre-Trained transformer)。

2024-03-11 08:23:04 2902 138

原创图神经网络实战（4）——基于Node2Vec改进嵌入质量

Node2Vec 是一种基于 DeepWalk 的架构，DeepWalk 主要由随机游走和 Word2Vec 两个组件构成，Node2Vec 通过改进随机游走的生成方式改进嵌入质量。在本节中，我们将学习这些改进以及如何为给定的图找到最佳参数，实现 Node2Vec 架构，并将其与在 Zachary's Karate Club 数据集上使用的 DeepWalk 进行比较，以理解两种架构之间的差异。

2024-03-07 08:07:07 2032 94

原创 PyTorch深度学习实战（38）——StyleGAN详解与实现

StyleGAN 是生成对抗网络的变体，是一种无监督学习模型，用于生成逼真且高分辨率的图像。StyleGAN 能够生成非常高分辨率人脸图像的关键在于，在增加分辨率的步骤中逐步增加生成网络和判别网络的复杂性，以便在每一步中，两个模型都可以很好地完成任务。本节中，介绍了如何通过确保每个分辨率的特征由一个独立的输入(称为风格向量)来控制，从而操纵生成图像的风格，以及如何通过将图像之间的风格进行交换来操作不同图像的风格。

2024-03-05 07:17:29 2349 83

原创图神经网络实战（3）——基于DeepWalk创建节点表示

DeepWalk 是机器学习技术在图数据中的成功应用之一，其引入了嵌入等重要概念，这些概念是图神经网络的核心。在本节中，我们了解了 DeepWalk 架构及其主要组件。然后，使用随机游走将图数据转化为序列，并应用了 Word2Vec 算法，使用图的拓扑信息创建节点嵌入，得到的嵌入结果可用于发现节点间的相似性，或作为其他算法的输入。最后，我们使用监督方法解决了节点分类问题。

2024-03-03 09:48:12 1630 65

原创图神经网络实战（2）——图论基础

图论 (Graph theory) 是数学的一个基本分支，涉及对图研究。图是复杂数据结构的可视化表示，有助于理解不同实体之间的关系。图论提供了大量建模和分析现实问题的工具，如交通系统、社交网络和互联网等。在本节中，将介绍图论的基本原理，主要涉及三个方面：图属性、图概念和图算法。

2024-02-29 08:02:29 3229 103

原创 AIGC实战——扩散模型(Diffusion Model)

本节介绍了最近最先进的生成模型之一，扩散模型。介绍了去噪扩散概率模型 (Denoising Diffusion Probabilistic Model, DDPM)，并利用去噪扩散隐式模型 (Denoising Diffusion Implicit Model, DDIM) 的思想，使生成过程具备完全的确定性。扩散模型由前向扩散过程和逆扩散过程组成，前向扩散过程通过一系列小步骤向训练数据添加噪声，而逆扩散过程中模型的目标是预测添加的噪声。

2024-02-26 08:08:44 3772 122

原创 PyTorch深度学习实战（37）——CycleGAN详解与实现

CycleGAN 是一种用于无监督图像转换的深度学习模型，它通过两个生成器和两个判别器的组合来学习两个不同域之间的映射关系。CycleGAN 引入循环一致性损失，确保图像转换是可逆的，从而提高生成图像的质量。通过对抗训练和循环一致性损失，CycleGAN 可以实现在没有配对标签的情况下进行图像域转换。本节介绍了 CycleGAN 的基本原理，并实现该模型用于将苹果图像转换为橙子图像，或反之将橙子图像转换为苹果图像。

2024-02-22 07:24:03 2618 99

原创 AIGC实战——能量模型(Energy-Based Model)

能量模型 (Energy-based Model, EBM) 是一类常见的生成模型，其借鉴了物理系统建模的一个关键思想，即事件的概率可以用玻尔兹曼分布来表示。玻尔兹曼分布是一种将实值能量函数归一化到 0 和 1 之间的函数，该分布最早由 Ludwig Boltzmann 于 1868 年提出，用于描述处于热平衡状态的气体系统。在本节中，我们将利用这一思想来训练一个生成模型，用于生成 MNIST 手写数字的图像。

2024-02-18 07:26:02 3596 117

原创 PyTorch深度学习实战（26）——多对象实例分割

Detectron2 支持一系列与目标检测和人体姿态估计等相关的任务，此外，Detectron2 还增加了对语义分割和全景分割的支持。通过利用 Detectron2，我们能够通过使用少量代码构建目标检测、分割和姿态估计模型。在本节中，我们将介绍如何从 Google 开放图像数据集中获取数据，将数据转换为 Detectron2 可接受的 COCO 格式，并训练模型执行实例分割，最后，介绍如何使用训练后的模型对新图像进行推理。

2024-02-12 07:47:03 1366 51

原创 PyTorch深度学习实战（23）——从零开始实现SSD目标检测

SSD (Single Shot MultiBox Detector) 是一种基于单次前向传递的实时目标检测算法，它在速度和准确性之间取得了很好的平衡。SSD 的核心思想是在卷积神经网络的不同层级上设置多个特征图用于预测目标。这些特征图在空间上具有不同的尺度，可以检测不同大小的目标。每个特征图上的每个位置都预测一组边界框和对应的类别概率。在本节中，将介绍 SSD 的工作原理，然后在自定义数据集上训练 SSD 目标检测模型。

2024-02-08 07:42:15 2376 64

原创 AIGC实战——归一化流模型(Normalizing Flow Model)

归一化流模型是由神经网络定义的可逆函数，通过变量变换，直接对数据密度函数进行建模。在一般情况下，变量变换方程需要计算高度复杂的雅可比行列式，但这并不实际。为了解决这一问题，RealNVP 模型限制了神经网络的形式，使其满足两个基本条件：可逆性和易于计算的雅可比行列式。

2024-02-05 08:13:45 2537 89

原创 PyTorch深度学习实战（36）——Pix2Pix详解与实现

Pix2Pix 是基于生成对抗网络的图像转换框架，能够将输入图像转换为与之对应的输出图像，能够广泛用于图像到图像转换的任务，如风格转换、图像修复、语义标签到图像的转换等。Pix2Pix 的核心思想是通过对抗训练将输入图像和目标输出图像进行配对，使生成网络可以学习到输入图像到输出图像的映射关系。在本节中，将学习使用 Pix2Pix 根据给定轮廓生成图像。

2024-01-31 07:38:50 1872 108

原创 PyTorch深度学习实战（35）——条件生成对抗网络(Conditional Generative Adversarial Network, CGAN)

条件生成对抗网络通过整合条件信息和潜在空间噪声，能够根据特定的条件生成具有一定属性或风格的合成数据，为许多创造性和应用型任务提供了强大的工具和手段。本节中，介绍了条件生成对抗网络的基本原理，并利用 PyTorch 实现条件生成对抗网络生成指定性别的人脸图像。

2024-01-28 08:02:42 2260 89

原创 PyTorch深度学习实战（34）——DCGAN详解与实现

DCGAN 是优秀的图像生成模型，其生成网路和判别网络都是使用卷积层和反卷积层构建的深度神经网络。生成网络接收一个随机噪声向量作为输入，并通过逐渐减小的反卷积层将其逐渐转化为与训练数据相似的输出图像；判别网络则是一个用于分类真实和生成图像的卷积神经网络。在本节中，我们学习了如何构建并训练 DCGAN 生成人脸图像。

2024-01-25 08:45:42 2082 99

原创 PyTorch深度学习实战（33）——生成对抗网络(Generative Adversarial Network, GAN)

生成对抗网络 (Generative Adversarial Networks, GAN) 是一种由两个相互竞争的神经网络组成的深度学习模型，它由一个生成网络和一个判别网络组成，通过彼此之间的博弈来提高生成网络的性能。生成对抗网络使用神经网络生成与原始图像集非常相似的新图像，它在图像生成中应用广泛，且 GAN 的相关研究正在迅速发展，以生成与真实图像难以区分的逼真图像。在本节中，我们将学习 GAN 网络的原理并使用 PyTorch 实现 GAN。

2024-01-22 07:39:09 2569 104

原创 AIGC实战——像素卷积神经网络(PixelCNN)

在本节中，介绍了如何使用 PixelCNN 以自回归的方式生成图像，使用 Keras 构建 PixelCNN 模型，实现掩码卷积层和残差块，以便信息可以在网络中传递，只有前面的像素可以用于生成当前的像素。最后，使用 TensorFlow Probability 库提供的 PixelCNN 函数，该函数使用混合分布作为输出层，从而能够进一步改善学习过程。

2024-01-17 08:15:42 3237 132

原创 PyTorch深度学习实战（32）——Deepfakes

Deepfakes 可以用于创造出艺术作品和娱乐内容，能够将一个人的表演或特征应用到不同的情境中，为电影、视频和游戏等领域带来创新和丰富多样的体验。也可以为电影制片人和视觉特效团队提供了更加高效和经济的方式来实现人物替换和数字化特效。在本节中，我们介绍了 Deepfakes 的基本原理并进行实现。

2024-01-15 07:56:10 1495 95

原创 AIGC实战——改进循环神经网络

我们已经学习了如何训练长短期记忆网络 (Long Short-Term Memory Network, LSTM) 模型，以学习使用给定风格生成文本，接下来，我们将学习如何扩展此模型，已获得更加优异的文本生成效果。

2024-01-11 08:08:30 3647 111

原创探索文档图像大模型，提升智能文档处理性能

尽管多模态大模型技术在智能文档处理领域有着重要的作用，但它并没有完全解决该领域面临的问题。本文通过回顾丁凯博士在第十九届中国图象图形学学会青年科学家会议 - 垂直领域大模型论坛上的报告，介绍了 GPT-4V 在 IDP 领域的优异性能及其面临的挑战，然后介绍了合合信息在文档感知方面的研究进展，并分析了如何将文档识别分析与大语言模型融合，以进一步提高图像文档处理的性能。

2024-01-08 08:23:31 20635 200

用于目标检测的 YOLO V3 模型架构及权重文件(含 OpenCV 使用示例)

用于目标检测的 MobileNet-SSD 模型架构及权重文件(使用 Caffe 框架进行预训练)

用于图像分类的 ResNet-50 模型架构及权重文件(使用 Caffe 框架进行预训练)

空空如也