- 博客(64)
- 收藏
- 关注
原创 图像修复领域-CVPR2024-Improving Image Restoration through Removing Degradations in Textual Representations
Improving Image Restoration through Removing Degradations in Textual Representations提出的主要思想是通过在文本层面来消除退化信息,生成文本层面修复后的图像,然后用生成的图像来辅助图片层面的修复。这个我理解的论文的大致思想。
2024-09-28 17:07:05 726
原创 2、Stable Diffusion
Stable Diffusion 是一种高效的文本到图像生成模型,它利用扩散模型(Diffusion Model)技术将自然语言描述转换为高质量的图像。其工作原理是通过反向扩散过程,逐渐将噪声引导到符合输入文本描述的图像上。相比其他生成模型(如 GANs),扩散模型在训练稳定性和图像生成质量方面具有显著优势。
2024-09-26 16:07:08 1210
原创 1、CLIP
CLIP 的训练过程通过对比学习机制,利用大量的图像-文本对进行自监督学习,允许模型在没有人工标签的情况下理解和学习图像与语言之间的关系。训练完成后的 CLIP 模型可以用于各种任务,如图像检索、文本生成、图像分类等,展现出很强的跨模态理解能力。
2024-09-26 10:32:30 774
原创 4、StyleGAN V2
StyleGAN V2是 2020 年 NVIDIA 提出的生成对抗网络(GAN)模型的改进版本,进一步提升了图像生成的质量和稳定性。与初代 StyleGAN 相比,StyleGAN V2 针对一些问题进行了优化,尤其是在生成高质量图像时的伪影问题(artifacts)和多尺度细节的处理。在介绍StyleGAN V2之前,需要对于初代StyleGAN有一定的了解,先介绍一下SytleGAN初代版本。
2024-09-24 10:36:28 872
原创 3、SRGAN
SRGAN(超分辨率生成对抗网络)是在由Christian Ledig等人在论文《》中提出的。该模型引入了基于GAN(生成对抗网络)的方法来解决单图像超分辨率(SISR)问题,即通过提高低分辨率图像的分辨率来生成高质量、逼真的结果。SRGAN 的重要意义在于,它是最早将GAN应用于超分辨率任务的模型之一,通过生成高频细节,不仅关注像素的准确性,还实现了视觉效果上明显更好的提升,生成的图像更加逼真。
2024-09-24 08:59:08 812
原创 2、StarGAN V2
StarGAN V2的出发点来自于StarGAN中使用的编码是一些固定的01编码,是不可学习,而StarGAN V2则在风格编码做出来改进,将风格编码初始化成向量,同时也可以通过原始输入图像来生成风格编码,而生成风格编码的网络是可学习的,使的风格更加的差异化,并且生成的图像风格更加准确。模型设计主要流程上并没有做出改动,主要在于损失函数的改动。理解损失函数也是掌握对抗生成网络的关键。
2024-09-22 11:59:32 727
原创 1、CycleGAN
CycleGAN 是一种流行的深度学习模型,用于图像到图像的转换任务,且不需要成对的数据。在介绍CycleGAN之前,必须对于传统的GAN模型有了解。
2024-09-19 12:01:45 609
原创 5、PointNeXt
关于PointNeXt实际上仅仅是在PointNet++的基础上做了一些改进,从它的全称就可以看出,Revisiting PointNet++ with Improved Training and Scaling Strategies,在PointNet++的基础上,引入了反向残差瓶颈设计和可分离 MLP,从而实现了高效的模型扩展。在数据增强方面尝试使用更多的方法。
2024-09-18 15:46:24 595
原创 4、(PCT)Point Cloud Transformer
本篇论文介绍Transformer在3D点云领域的应用,Transformer在NLP领域和图像处理领域都得到了广泛的应用,特别是近年来在图像领域的应用,本篇论文主要介绍,如何将Transformer运用到3D点云领域。
2024-09-18 11:12:57 886
原创 2、PF-Net点云补全
是一种专门为三维点云补全设计的深度学习模型。点云补全实际上和图片补全是一个逻辑,都是采用GAN模型的思想来进行补全,在图片补全中,将部分像素点删除并且标记,然后卷积特征提取预测、判别器判别,来训练模型,生成的像素点与原来像素点比较完成模型的训练。而PF-Net就是采用GAN的思想在3D点云上的应用。
2024-09-09 12:27:26 732
原创 7、关于LoFTR
LoFTR的提出,是将Transformer模型的注意力机制在特征匹配方向的应用,Transformer的提取特征的机制,在自身进行,本文提出可以的两张图像之间进行特征计算,非常适合进行特征匹配。
2024-09-06 16:18:32 831
原创 6、关于Medical-Transformer
实际上是在医学领域的运行,只是在这基础上增加了门机制,实际上也就是在原来Axial-attention基础之上增加权重机制,虚弱位置信息对于数据的影响,发现虚弱之后的效果比Axial-Attention机制效果更好。
2024-09-05 12:50:17 1314
原创 4.关于swintransformer
swintransformer主要是在transformer的基础上引入类似于cnn的下采样,图片大小成倍减少,通道数成倍增加,使特征进行融合,减少了计算量其次的特点就是使用W-MSA和SW-MSA,两个为一组来进行特征提取。引入窗口和分层机制,在进行下采样,多层叠加提取特征。
2024-09-03 18:08:22 353
原创 3.关于Detr
紧接着是decoder,初始化object queries,都初始化为0,同时加上位置信息,首先q自己先进行self-attention,更新q,再由decoder提供q,encoder提供k和v,来进行multi-attention,整合多维度的信息,同时也是做多次,获得多个输出特征结果,这样的过程回经过6次。在encoder中进行embedding,将特征信息转换成多维度向量,通过transformer的self-attention机制,生成特征k,v。使用的数据集是coco数据集,现成的使用。
2024-09-03 11:48:15 273
原创 Redis缓存常见使用和问题分析
学习redis使用过程中,对于基本使用思路的总结,并没有给出具体的实现细节,可以作为参考,基于缓存对项目进行优化。
2022-04-29 20:15:59 1496
原创 java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
servlet项目数据库驱动jar引入了,但是驱动仍然不可用,一个细节问题
2022-03-17 13:25:08 1056
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人