- 博客(343)
- 资源 (3)
- 收藏
- 关注
原创 PyTorch深度学习实战(39)——小样本学习
小样本学习 (Few-shot Learning) 旨在解决在训练集中只有很少样本的情况下进行分类和推理的问题。在小样本学习中,我们希望通过利用已有的少量样本和先验知识来进行泛化,以便在面对新的、未见过的类别时能够做出准确的预测。这就要求模型能够从有限的训练样本中提取出有用的信息,并能够将这些信息应用到新类别的样本中去。在本节中,将介绍孪生、原型和关系网络的原理,并使用 PyTorch 实现孪生网络。
2024-03-18 08:25:58 846 22
原创 图神经网络实战——基于Node2Vec的电影推荐系统
在电影推荐系统中,可以将每部电影视为一个节点,而节点之间的连接则表示电影之间的关联或相似性。Node2Vec 算法可以在电影图谱上学习出每部电影的向量表示,这些向量可以捕获电影之间的隐含关系,例如共同的演员、导演、类型等等。一旦得到了电影的向量表示,就可以使用这些表示来计算电影之间的相似度,并基于相似度来进行推荐。通过将用户喜欢的电影与其向量表示进行比较,系统可以推荐与之相似的其他电影。在本节中,构建基于 Node2Vec 的电影推荐系统。
2024-03-14 08:01:54 693 34
原创 AIGC实战——GPT(Generative Pre-trained Transformer)
注意力机制能够用于构建先进的文本生成模型,Transformer 是用于序列建模的强大神经网络,该神经网络不需要复杂的循环或卷积架构,而只依赖于注意力机制。这种方法克服了循环神经网络难以并行化的缺陷。Transformers 高度可并行化运算,能够在大规模数据集上进行训练。在本节中,我们将学习文本生成模型如何利用 Transformer 架构提高文本性能,并介绍自回归模型 GPT (Generative Pre-Trained transformer)。
2024-03-11 08:23:04 2080 68
原创 图神经网络实战(4)——基于Node2Vec改进嵌入质量
Node2Vec 是一种基于 DeepWalk 的架构,DeepWalk 主要由随机游走和 Word2Vec 两个组件构成,Node2Vec 通过改进随机游走的生成方式改进嵌入质量。在本节中,我们将学习这些改进以及如何为给定的图找到最佳参数,实现 Node2Vec 架构,并将其与在 Zachary's Karate Club 数据集上使用的 DeepWalk 进行比较,以理解两种架构之间的差异。
2024-03-07 08:07:07 1502 48
原创 PyTorch深度学习实战(38)——StyleGAN详解与实现
StyleGAN 是生成对抗网络 的变体,是一种无监督学习模型,用于生成逼真且高分辨率的图像。StyleGAN 能够生成非常高分辨率人脸图像的关键在于,在增加分辨率的步骤中逐步增加生成网络和判别网络的复杂性,以便在每一步中,两个模型都可以很好地完成任务。本节中,介绍了如何通过确保每个分辨率的特征由一个独立的输入(称为风格向量)来控制,从而操纵生成图像的风格,以及如何通过将图像之间的风格进行交换来操作不同图像的风格。
2024-03-05 07:17:29 1786 42
原创 图神经网络实战(3)——基于DeepWalk创建节点表示
DeepWalk 是机器学习技术在图数据中的成功应用之一,其引入了嵌入等重要概念,这些概念是图神经网络的核心。在本节中,我们了解了 DeepWalk 架构及其主要组件。然后,使用随机游走将图数据转化为序列,并应用了 Word2Vec 算法,使用图的拓扑信息创建节点嵌入,得到的嵌入结果可用于发现节点间的相似性,或作为其他算法的输入。最后,我们使用监督方法解决了节点分类问题。
2024-03-03 09:48:12 1028 32
原创 图神经网络实战(2)——图论基础
图论 (Graph theory) 是数学的一个基本分支,涉及对图研究。图是复杂数据结构的可视化表示,有助于理解不同实体之间的关系。图论提供了大量建模和分析现实问题的工具,如交通系统、社交网络和互联网等。在本节中,将介绍图论的基本原理,主要涉及三个方面:图属性、图概念和图算法。
2024-02-29 08:02:29 2153 52
原创 AIGC实战——扩散模型(Diffusion Model)
本节介绍了最近最先进的生成模型之一,扩散模型。介绍了去噪扩散概率模型 (Denoising Diffusion Probabilistic Model, DDPM),并利用去噪扩散隐式模型 (Denoising Diffusion Implicit Model, DDIM) 的思想,使生成过程具备完全的确定性。扩散模型由前向扩散过程和逆扩散过程组成,前向扩散过程通过一系列小步骤向训练数据添加噪声,而逆扩散过程中模型的目标是预测添加的噪声。
2024-02-26 08:08:44 2962 118
原创 PyTorch深度学习实战(37)——CycleGAN详解与实现
CycleGAN 是一种用于无监督图像转换的深度学习模型,它通过两个生成器和两个判别器的组合来学习两个不同域之间的映射关系。CycleGAN 引入循环一致性损失,确保图像转换是可逆的,从而提高生成图像的质量。通过对抗训练和循环一致性损失,CycleGAN 可以实现在没有配对标签的情况下进行图像域转换。本节介绍了 CycleGAN 的基本原理,并实现该模型用于将苹果图像转换为橙子图像,或反之将橙子图像转换为苹果图像。
2024-02-22 07:24:03 2059 97
原创 AIGC实战——能量模型(Energy-Based Model)
能量模型 (Energy-based Model, EBM) 是一类常见的生成模型,其借鉴了物理系统建模的一个关键思想,即事件的概率可以用玻尔兹曼分布来表示。玻尔兹曼分布是一种将实值能量函数归一化到 0 和 1 之间的函数,该分布最早由 Ludwig Boltzmann 于 1868 年提出,用于描述处于热平衡状态的气体系统。在本节中,我们将利用这一思想来训练一个生成模型,用于生成 MNIST 手写数字的图像。
2024-02-18 07:26:02 3125 116
原创 PyTorch深度学习实战(26)——多对象实例分割
Detectron2 支持一系列与目标检测和人体姿态估计等相关的任务,此外,Detectron2 还增加了对语义分割和全景分割的支持。通过利用 Detectron2,我们能够通过使用少量代码构建目标检测、分割和姿态估计模型。在本节中,我们将介绍如何从 Google 开放图像数据集中获取数据,将数据转换为 Detectron2 可接受的 COCO 格式,并训练模型执行实例分割,最后,介绍如何使用训练后的模型对新图像进行推理。
2024-02-12 07:47:03 1169 49
原创 PyTorch深度学习实战(23)——从零开始实现SSD目标检测
SSD (Single Shot MultiBox Detector) 是一种基于单次前向传递的实时目标检测算法,它在速度和准确性之间取得了很好的平衡。SSD 的核心思想是在卷积神经网络的不同层级上设置多个特征图用于预测目标。这些特征图在空间上具有不同的尺度,可以检测不同大小的目标。每个特征图上的每个位置都预测一组边界框和对应的类别概率。在本节中,将介绍 SSD 的工作原理,然后在自定义数据集上训练 SSD 目标检测模型。
2024-02-08 07:42:15 1629 60
原创 AIGC实战——归一化流模型(Normalizing Flow Model)
归一化流模型是由神经网络定义的可逆函数,通过变量变换,直接对数据密度函数进行建模。在一般情况下,变量变换方程需要计算高度复杂的雅可比行列式,但这并不实际。为了解决这一问题,RealNVP 模型限制了神经网络的形式,使其满足两个基本条件:可逆性和易于计算的雅可比行列式。
2024-02-05 08:13:45 2179 86
原创 PyTorch深度学习实战(36)——Pix2Pix详解与实现
Pix2Pix 是基于生成对抗网络的图像转换框架,能够将输入图像转换为与之对应的输出图像,能够广泛用于图像到图像转换的任务,如风格转换、图像修复、语义标签到图像的转换等。Pix2Pix 的核心思想是通过对抗训练将输入图像和目标输出图像进行配对,使生成网络可以学习到输入图像到输出图像的映射关系。在本节中,将学习使用 Pix2Pix 根据给定轮廓生成图像。
2024-01-31 07:38:50 1363 108
原创 PyTorch深度学习实战(35)——条件生成对抗网络(Conditional Generative Adversarial Network, CGAN)
条件生成对抗网络通过整合条件信息和潜在空间噪声,能够根据特定的条件生成具有一定属性或风格的合成数据,为许多创造性和应用型任务提供了强大的工具和手段。本节中,介绍了条件生成对抗网络的基本原理,并利用 PyTorch 实现条件生成对抗网络生成指定性别的人脸图像。
2024-01-28 08:02:42 1941 89
原创 PyTorch深度学习实战(34)——DCGAN详解与实现
DCGAN 是优秀的图像生成模型,其生成网路和判别网络都是使用卷积层和反卷积层构建的深度神经网络。生成网络接收一个随机噪声向量作为输入,并通过逐渐减小的反卷积层将其逐渐转化为与训练数据相似的输出图像;判别网络则是一个用于分类真实和生成图像的卷积神经网络。在本节中,我们学习了如何构建并训练 DCGAN 生成人脸图像。
2024-01-25 08:45:42 1901 97
原创 PyTorch深度学习实战(33)——生成对抗网络(Generative Adversarial Network, GAN)
生成对抗网络 (Generative Adversarial Networks, GAN) 是一种由两个相互竞争的神经网络组成的深度学习模型,它由一个生成网络和一个判别网络组成,通过彼此之间的博弈来提高生成网络的性能。生成对抗网络使用神经网络生成与原始图像集非常相似的新图像,它在图像生成中应用广泛,且 GAN 的相关研究正在迅速发展,以生成与真实图像难以区分的逼真图像。在本节中,我们将学习 GAN 网络的原理并使用 PyTorch 实现 GAN。
2024-01-22 07:39:09 2175 104
原创 AIGC实战——像素卷积神经网络(PixelCNN)
在本节中,介绍了如何使用 PixelCNN 以自回归的方式生成图像,使用 Keras 构建 PixelCNN 模型,实现掩码卷积层和残差块,以便信息可以在网络中传递,只有前面的像素可以用于生成当前的像素。最后,使用 TensorFlow Probability 库提供的 PixelCNN 函数,该函数使用混合分布作为输出层,从而能够进一步改善学习过程。
2024-01-17 08:15:42 3041 128
原创 PyTorch深度学习实战(32)——Deepfakes
Deepfakes 可以用于创造出艺术作品和娱乐内容,能够将一个人的表演或特征应用到不同的情境中,为电影、视频和游戏等领域带来创新和丰富多样的体验。也可以为电影制片人和视觉特效团队提供了更加高效和经济的方式来实现人物替换和数字化特效。在本节中,我们介绍了 Deepfakes 的基本原理并进行实现。
2024-01-15 07:56:10 1395 95
原创 AIGC实战——改进循环神经网络
我们已经学习了如何训练长短期记忆网络 (Long Short-Term Memory Network, LSTM) 模型,以学习使用给定风格生成文本,接下来,我们将学习如何扩展此模型,已获得更加优异的文本生成效果。
2024-01-11 08:08:30 3530 111
原创 探索文档图像大模型,提升智能文档处理性能
尽管多模态大模型技术在智能文档处理领域有着重要的作用,但它并没有完全解决该领域面临的问题。本文通过回顾丁凯博士在第十九届中国图象图形学学会青年科学家会议 - 垂直领域大模型论坛上的报告,介绍了 GPT-4V 在 IDP 领域的优异性能及其面临的挑战,然后介绍了合合信息在文档感知方面的研究进展,并分析了如何将文档识别分析与大语言模型融合,以进一步提高图像文档处理的性能。
2024-01-08 08:23:31 20395 199
原创 AIGC实战——自回归模型(Autoregressive Model)
自回归模型 (Autoregressive Model) 通过将生成问题视为一个序列过程来简化生成模型。自回归模型将预测条件建立在序列中的先前值上,而不是一个以随机潜变量为条件。因此,自回归模型尝试对数据生成分布进行显式建模,而不是尝试近似数据分布。在本节中,将介绍一类经典的自回归模型,长短期记忆网络 (Long Short-Term Memory Network, LSTM),并将 LSTM 应用于生成文本数据。
2024-01-05 08:06:02 2960 103
原创 图神经网络实战(1)——图神经网络(Graph Neural Networks, GNN)基础
本节全面介绍了图神经网络 (Graph Neural Network, GNN) ,包括其在数据分析和机器学习中的重要性。首先探讨了图作为数据表示的相关概念及其在各个领域的广泛应用;然后深入探讨图学习的重要性,包括不同的应用和技术。最后,重点介绍了 GNN 架构,并对比了它与其他方法之间的原理和性能差异。
2024-01-02 07:43:55 19356 142
原创 PyTorch深度学习实战(31)——神经风格迁移
神经风格迁移 (Neural Style Transfer) 是一种基于深度学习的技术,用于将两个不同图像的风格进行合成,生成新的图像。它通过将一个参考图像的风格应用于另一个内容图像,以创造出独特而富有艺术感的合成图像。在本节中,首先介绍了神经风格迁移的核心思想与风格迁移图像的生成流程,然后利用 PyTorch 从零开始实现了神经风格迁移算法,可以通过修改模型中的超参数来生成不同观感的图像。
2023-12-29 08:15:17 1952 89
原创 PyTorch深度学习实战(30)——对抗攻击(Adversarial Attack)
研究表明,深度学习模型容易受到输入数据中细微扰动的影响,从而导致模型输出错误的预测。在图像领域,此类扰动通常很小对于人眼而言甚至无法察觉,但它们却能够愚弄深度学习模型。针对深度学习模型的这种对抗攻击,限制了深度学习的成功在更广泛领域的应用。本节中,我们将介绍对抗攻击 (Adversarial Attack) 的基本概念,并使用 PyTorch 实现对抗攻击生成可欺骗神经网络的图像。
2023-12-27 08:06:16 838 75
原创 PyTorch深度学习实战(29)——变分自编码器(Variational Autoencoder, VAE)
变分自编码器 (Variational Autoencoder, VAE) 是一种结合了自编码器和概率建模的生成模型,通过编码器将输入数据映射到潜在空间中的概率分布,并通过解码器将从潜在空间采样得到的潜在变量映射回原始数据空间,实现了数据的生成和特征学习。
2023-12-25 07:38:54 945 87
原创 PyTorch深度学习实战(28)——卷积自编码器(Convolutional Autoencoder)
卷积自编码器是一种基于卷积神经网络结构的自编码器,适用于处理图像数据。在本节中,我们介绍了卷积自编码器的模型架构,使用 PyTorch 从零开始实现在 MNIST 数据集上训练了一个简单的卷积自编码器,并使用 t-SNE 技术在二维平面中表示了所有测试图像的潜变量。
2023-12-21 08:05:28 2892 102
原创 AIGC实战——条件生成对抗网络(Conditional Generative Adversarial Net, CGAN)
在本节中,构建了一个条件生成对抗网络 (Conditional Generative Adversarial Net, CGAN),通过将标签作为输入传递给判别器和生成器,能够生成可控类别的图像,这是由于标签为网络提供了额外的信息,以便使生成的输出与给定的标签相关联。
2023-12-18 07:29:43 3850 116
原创 PyTorch深度学习实战(27)——自编码器(Autoencoder)
自编码器 (Autoencoder) 是一种无监督学习的神经网络模型,用于数据的特征提取和降维,它由一个编码器 (Encoder) 和一个解码器 (Decoder) 组成,通过将输入数据压缩到低维表示,然后再重构出原始数据。在本节中,我们将学习如何使用自编码器,以在低维空间表示图像,学习以较少的维度表示图像有助于修改图像,可以利用低维表示来生成新图像。
2023-12-13 08:48:23 1490 91
原创 PyTorch深度学习实战——人群计数
人群计数是指通过图像或视频分析技术,对给定场景中的人群数量进行估计和统计的过程。人群计数在城市交通监控、公共安全、活动管理等领域具有广泛的应用。例如,在城市交通管理中,可以通过人群计数来评估交通拥堵情况;在公共安全中,可以利用人群计数来监测人员密集区域,及时发现异常情况。本节中,将介绍人群计数的基本概念,并基于 CSRNet 构建人群计数模型。
2023-12-11 08:17:36 768 78
原创 AIGC实战——WGAN(Wasserstein GAN)
在本节中,我们学习了如何使用 Wasserstein 损失函数以解决经典 GAN 训练过程中的模式坍塌和梯度消失等问题,使得 GAN 的训练更加可预测和可靠。WGAN-GP 通过在损失函数中添加一个令梯度范数指向 1 的项,为训练过程施加 1-Lipschitz 约束。
2023-12-08 08:14:44 2058 96
原创 AIGC实战——生成对抗网络(Generative Adversarial Network, GAN)
生成对抗网络 (Generative Adversarial Network, GAN) 是由 Ian Goodfellow 等人在 2014 年提出的一种强大的深度学习模型,可以用于生成新数据样本,比如图像、音频、文本等。GAN 包含两个神经网络:生成器和判别器。生成器根据输入的噪声信号生成一些伪造的数据样本,而判别器则负责判断该数据样本是真实的还是伪造的。在本节中,首先阐述生成对抗网络的理论基础,然后使用 Keras 构建生成对抗网络模型。
2023-12-01 07:00:27 1770 93
原创 PyTorch深度学习实战——人体姿态估计
在本节中,我们将了解如何利用 Detectron2 对图像执行人体姿态估计,检测图像中人物的身体部位的关键点。人体关键点在包括体育分析和智能安防能领域具有重要应用。在本节中,我们将利用配置文件指定预训练的关键点检测模型。
2023-11-23 07:43:13 2282 102
原创 AIGC实战——使用变分自编码器生成面部图像
在本节中,我们将变分自编码器应用于人脸生成问题,并了解如何解码来自标准正态分布的样本点以生成新的人脸。此外,通过在潜空间内执行向量运算,我们可以实现一些新奇的效果,如人脸形态变换和特征操作。
2023-11-19 08:24:29 1898 117
原创 AIGC实战——变分自编码器(Variational Autoencoder, VAE)
变分自编码器通过在模型中引入随机性,并限制潜空间中的点的分布来解决自编码器存在的问题。只需进行一些微小的调整,就可以将自编码器转换为变分自编码器,从而使其成为真正的生成模型。在本节中,我们介绍了变分自编码器的基本原理,并使用 `Keras` 实现了一个变分自编码器用于生成 Fashion-MNIST 图像。
2023-11-16 08:29:06 1694 87
原创 AIGC实战——自编码器(Autoencoder)
自编码器 (Autoencoder) 是一种无监督学习的神经网络模型,用于学习输入数据的低维表示。它由编码器和解码器两部分组成,通过将输入数据压缩到潜空间表示(编码),然后将其重构为与原始输入尽可能相似的形式(解码)。在本节中,我们将使用 Keras 构建一个标准的自编码器,以理解自编码器的工作原理。
2023-11-13 07:33:03 2062 94
原创 AIGC实战——卷积神经网络(Convolutional Neural Network, CNN)
在全连接网络中,首先需要将图像展平为一个一维向量,以便将其传递给第一个全连接层。为了考虑图像的空间结构,需要使用卷积神经网络 (Convolutional Neural Network, CNN) 。本节中,将介绍卷积神经网络的优势及其基本组件,并使用 Keras 构建卷积神经网络。
2023-11-08 07:24:58 4365 101
原创 PyTorch深度学习实战——图像着色
图像着色指的是将黑白或灰度图像转换为彩色图像的过程,传统的图像处理技术通常基于直方图匹配和颜色传递的方法或基于用户交互的方法等完成图像着色操作,不但耗时且需要专业知识,而基于深度学习的方法能够实现自动着色,极大的提高了效率。在训练图着色模型时,我们可以将原始图像转换为黑白图像作为网络输入,原始彩色图像作为输出。
2023-11-06 07:58:37 743 52
原创 OpenCV实战——OpenCV.js介绍
OpenCV.js 是 OpenCV 函数的端口,将 C++ 代码编译为 JavaScript`。`OpenCV 使用 Emscripten 将 C++ 函数编译为 Asm.js 或 WebAssembly 目标,在本节中,我们将编写一个非常简单的应用,将图像加载到 HTML img 标签中,转换图像色彩空间并在 canvas 元素中绘制。
2023-11-03 08:23:12 8632 58
原创 PyTorch深度学习实战(25)——从零开始实现Mask R-CNN实例分割
Mask R-CNN 是一种在目标检测任务中引入了语义分割的强大框架,通过在 Faster R-CNN 基础上进行扩展,添加了额外的分支网络,不仅可以准确地检测对象的位置和类别,还可以生成每个实例的精确像素级别的语义分割掩码。其模块化的设计可以轻松地应用于不同的任务和数据集,并且可以通过添加更多的分支进行功能扩展,如实例关键点检测等。
2023-11-01 07:40:41 1619 61
用于目标检测的 YOLO V3 模型架构及权重文件(含 OpenCV 使用示例)
2021-09-30
用于目标检测的 MobileNet-SSD 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
用于图像分类的 ResNet-50 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人