- 博客(38)
- 收藏
- 关注
原创 【论文阅读】RAPTOR: Robust and Perception-Aware Trajectory Replanning for Quadrotor Fast Flight
发表自香港科学技术大学的沈劭劼大佬的实验室。对于无人机来说,在未知且高度杂乱的环境中实现自主高速飞行一直是一个很大的挑战。本文提出了一个Robust And Perception-aware TrajectOry Replanning (RAPTOR)框架解决了这些问题。
2022-10-19 11:15:15 1433 2
原创 美团2021校招笔试题 最优二叉树II
题目:小团有一个由N个节点组成的二叉树,每个节点有一个权值。定义二叉树每条边的开销为其两端节点权值的乘积,二叉树的总开销即每条边的开销之和。小团按照二叉树的中序遍历依次记录下每个节点的权值,即他记录下了N个数,第i个数表示位于中序遍历第i个位置的节点的权值。之后由于某种原因,小团遗忘了二叉树的具体结构。在所有可能的二叉树中,总开销最小的二叉树被称为最优二叉树。现在,小团请小美求出最优二叉树的总开销。1<=N<=300思路:首先想到了搜索,但是常规的搜索时间复杂度为O(N!),最多(300
2022-03-23 18:56:28 1422
原创 关于数据增强在图像生成上的一些细节
之前在打竞赛的时候,经常遇到很多分类,检测的问题,而图片的数据量往往都是不够的,少的只有五六百。这时候的任务就是少样本问题。最常用的解决方法就是数据增强,比如裁剪,拉伸,平移,color jittering,flip,region mask(cutout)等,这些做法增大了数据量,使得分类器减少了过拟合的可能性。不过,这些都不能用到图像生成GAN的任务上去。我在做少样本生成的时候,数据集少的也就只有几百张,这时候discriminator就很容易出现过拟合,倾向于记住所有的real image,导致在后期
2022-03-06 20:33:10 761
原创 【少样本图像生成】Towards Faster And Stabilized GAN training for high-fidelity few-shot image synthesis
【少样本图像生成】TOWARDS FASTER AND STABILIZED GAN TRAINING FOR HIGH-FIDELITY FEW-SHOT IMAGE SYNTHESIS 论文阅读笔记开源代码: https://github.com/odegeasslbc/FastGAN-pytorch首先这篇文章会分析一下模型的效果,优缺点,然后再解释网络结构。模型效果分析从论文里的图来看,效果是很不错的。以下是用1024x1024像素在2080-Ti GPU上训练的,数据集大小1000.左边训
2022-03-01 20:53:10 4787 7
原创 paddle torch 梯度突然变为0
记录一个惨痛的教训,正在复现ranger优化器。花了两天时间调试,不是试图在优化器里去直接修改梯度,因为这不知道什么时候会突然导致你的梯度变为0.正确做法是将梯度的数据从parameter分离出来,而不是直接对parameter进行操作...
2021-08-18 15:48:05 685
原创 python安装aubio。pip install aubio。 conda install aubio
今天安装aubio的时候出现了错误,pip install aubioFailed to build aubioInstalling collected packages: aubioRunning setup.py install for aubio … - WARNING: Subprocess output does not appear to be encoded as cp936WARNING: Subprocess output does not appear to be en
2021-07-19 10:04:24 1512
原创 DALL-E: Zero-Shot Text-to-Image Generation
Zero-Shot Text-to-Image Generation 论文阅读笔记摘要:基于零样本(zero-shot)生成。使用两亿个文本-图像对训练。公开源码(https://github.com/openai/DALL-E)不是很完善,缺了比如text encoder等关键部分。这论文写得emmm不堪入目。效果:方法训练阶段分两部分:阶段一,压缩图片。训练一个discrete variational autoencoder (dVAE),即离散的变分自编码器来压缩256x256大小
2021-07-10 21:52:51 3856
原创 缺陷检测-——深度学习的方法 学习笔记
参考资料:https://github.com/Charmve/Surface-Defect-Detectionhttps://github.com/Eatzhy/surface-defect-detection缺陷问题的两个关键点:缺陷检测在工业上应用广,但相比于ImageNet 千万级的图片数量相比,数据不足,是小样本问题。常采用的方法有:a。数据增强和生成。对原始缺陷样本进行镜像、旋转、平移、扭曲、滤波和对比度调整等,以获得更多的样本。另一种常见的方法是数据合成,单个缺陷被融合并叠加在正
2021-06-19 19:53:51 1026
原创 AttributeError: module ‘pip‘ has no attribute ‘pep425tags‘
三种方法,一个一个试:import pip._internalprint(pip._internal.pep425tags.get_supported())import pipprint(pip.pep425tags.get_supported())import pip._internal.pep425tagsprint(pip._internal.pep425tags.get_supported())
2021-05-16 09:14:10 410
原创 【CVPR2021】TediGAN: Text-Guided Diverse Face Image Generation and Manipulation
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation论文阅读github代码创新点:针对人脸的图片生成和修改。模型由styleGAN inversion(根据预训练的StyleGAN将图片映射到一个latent space)、visual-linguistic similarity learning(将文本和图片映射到common embedding space来计算相似度)和instance-level optim
2021-05-15 20:18:28 1513
原创 【2020】Lightweight Generative Adversarial Networks for Text-Guided Image Manipulation论文阅读笔记
Lightweight Generative Adversarial Networks for Text-Guided Image Manipulation论文阅读这是一篇在Text-Guided Image Manipulation领域关于轻量模型的论文,github代码地址(还未公开):https://github.com/mrlibw/Lightweight-Manipulation创新点:提出了轻量级网络结构,可以在手机等移动设备上运行,并且效果相比其他模型来说也很不错。模型结构作者首
2021-05-10 20:21:49 593
原创 StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery 论文阅读笔记
StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery 论文阅读笔记笔者的话:最近看了StyleGAN的中文解析,觉得得把笔记写得通俗一点比较好,直接翻译看的好累,还不如直接看原文。从这篇开始,向他们学习!ヾ(◍°∇°◍)ノ゙创新点:结合了StyleGAN(最近风格迁移的利器,下面会介绍)和CLIP(预训练的Text-Image模型,可以提供网络一个名词,比如老虎,对应的图片的样子)。数据集上,这个方法可以用于多个领域,不用局限于数据注释的限
2021-05-03 14:35:45 2975
原创 【CVPR2019】Object-driven Text-to-Image Synthesis via Adversarial Training论文阅读
【CVPR2019】Object-driven Text-to-Image Synthesis via Adversarial Training论文阅读本人的话:思路可以借鉴,效果不太好提出了可以捕捉word/object-level information的Obj-GAN( Object-driven Attentive Generative Adversarial Networks):将文本描述和预生成的semantic layout作为image generator的输入。在每一层,gener
2021-04-22 20:50:09 522
原创 pytorch rnn迁移到多个gpu上遇到的问题
今天在实验中需要把原本再单个gpu上运行的模型给迁移到多个gpu上的问题。于是使用了pytorch的data parallel。结果其他网络模型都没有问题,只有text encoder出了问题。原因有两个部分:hidden是用text encoder的自定义方法赋值的,而且原来的hidden size为(a, batch size, b),但dataparallel分发任务默认将第一维当做batch size。于是对其进行了一番修改,具体参考这篇博文https://blog.csdn.net/yuuy
2021-04-21 22:29:30 237
转载 【转载】轻松学Pytorch-Pytorch可视化
import numpy as npfrom torch.utils.tensorboard import SummaryWriterwriter = SummaryWriter(log_dir='./log')flag = 0if flag : for x in range(100): # 把x*2的数据加入标签y=2x的曲线 writer.add_scalar(tag='y=2x',scalar_value=x*2,global_s..
2021-04-21 11:39:04 195
原创 StarGAN v2: Diverse Image Synthesis for Multiple Domains
StarGAN v2: Diverse Image Synthesis for Multiple Domains论文阅读Github(包含代码、数据集、与训练模型):https://github.com/clovaai/stargan-v2关键词:multiple domains,主要贡献:改进了StarGAN,提出了StarGANv2,它是一个scalable的跨multiple domains的模型,将StarGAN中的domain label替换为style code。mapping ne
2021-04-15 21:52:03 513
原创 论文阅读 StarGAN Based Facial Expression Transfer for Anime Characters
StarGAN Based Facial Expression Transfer for Anime Characters 论文阅读(这篇论文没啥创新意义,主要学习一下数据收集、处理)关键词:动画、面部表情主要贡献:1)提供了一个有标签的数据集,它收集自Danbooru和GetChu,包含5个动画表情(happy、sad、crying、neutral、surprised),每个表情平均有一千张图片。我们还实现了一个开源的可移动应用来加快图片标记和检测假阳性的错误。2)使用StarGAN作为我们的基
2021-04-15 19:48:17 263
原创 AniGAN: Style-Guided Generative Adversarial Networks for Unsupervised Anime Face Generation
AniGAN: Style-Guided Generative Adversarial Networks for Unsupervised Anime Face Generation论文阅读Github:https://github.com/bing-li-ai/AniGAN摘要:实现效果如图,即根据一张参考动漫人物图片,对目标人物进行风格迁移。介绍Style-Guided Face-to-Anime Translation(StyleFAT)任务根据参考动画脸的样式将照片转换为动画脸。难点
2021-04-14 20:56:39 984
转载 Pytorch nn.Conv2d函数使用
Torch.nn.Conv2d(in_channels,out_channels,kernel_size,stride=1,padding=0,dilation=1,groups=1,bias=True)in_channels:输入维度out_channels:输出维度kernel_size:卷积核大小stride:步长大小padding:补0dilation:kernel间距...
2021-04-11 08:47:06 250
原创 Spectral Normalization谱归一化的理解
前置知识之—— 利普希茨连续(Lipschitz continuous)Lipschitz连续,要求函数图像的曲线上任意两点连线的斜率一致有界,就是任意的斜率都小于同一个常数,这个常数就是Lipschitz常数。从局部看:我们可以取两个充分接近的点,如果这个时候斜率的极限存在的话,这个斜率的极限就是这个点的导数。也就是说函数可导,又是Lipschitz连续,那么导数有界。反过来,如果可导函数,导数有界,可以推出函数Lipschitz连续。从整体看:Lipschitz连续要求函数在无限的区间上不能有超过
2021-04-10 16:17:27 2860 1
原创 复现DM-GAN中遇到了的问题:
for p, avg_p in zip(netG.parameters(), avg_param_G): avg_p.mul_(0.999).add_(0.001, p.data)并且它保存的模型竟然是avg_p的数据,而不是p的数据。这段代码是什么意思?通过查阅代码,这一段代码的源头来源于StackGAN++。从字面意思理解,即,avg_p = 0.999avg_p + 0.001p。emmmmm,花了一小时查了一堆资料,是滑动平均。论文里完全没提到[○・`Д´・ ○]。详细资料见下面
2021-04-09 15:57:33 416
转载 图像风格迁移 论文阅读 FUNIT 基于少样本无监督
转载:【论文译文】Few-Shot Unsupervised Image-to-Image Translation(FUNIT)
2021-04-04 23:10:34 595
原创 动漫风格迁移 I2I 论文阅读笔记——Comixify transform video into a comics
Comixify transform video into a comics论文阅读笔记发表于2018.官方app:http://comixify.ii.pw.edu.pl本人的话:我感觉看了一篇大创的水论文。。。。。介绍我们提出了一种video comixification技术,它分为两步:1)提取帧。从视频中提取部分可以表达视频完整意思的帧,同时这些帧在视觉上吸引人。我们使用了一个基于强化学习的关键帧提取算法,它另外结合了时间分割方法和图像美学评估。2)风格迁移。我们将提取的关键帧转化为连环画
2021-04-04 16:06:01 1537 1
原创 动漫风格迁移 I2I 论文阅读笔记——Learning to Cartoonize Using White-box Cartoon Representation
Learning to Cartooniza Using White-box Cartoon Representation 论文阅读发表于CV2020。介绍由于动画风格多样,且需求多元,所以实用的动漫风格迁移算法需要以特定假设为前提。比如,一些动画制作流程更关注全局调色板主题(global palette theme),而不是线条的清晰度。从而导致黑箱模型没法应对各种多样的需求(简单的改变数据集不能解决问题)。为了解决上述问题,我们将图片分解成几个动画表达形式:首先,我们提取了surface表达
2021-04-03 15:13:33 924
原创 Photo Cartoonize、动漫图片生成、 论文记录
CartoonGAN: generative adversarial networks for photo cartoonization【CVPR 2018】许多动漫风格迁移的baselineComixify: transform video into a comics【2018】将一个视频转化为连环漫画:他们提出了从视频中提取那些可以完整描述视频内容的关键帧的算法。AnimeGAN: A Novel Lightweight GAN for Photo Animation【2020】github.
2021-03-31 22:30:50 1283
原创 风格迁移 I2I 论文阅读笔记——AnimeGAN,动漫风格生成
AnimeGAN: A Novel Lightweight GAN for Photo Animationgithub代码:https://github.com/TachibanaYoshino/AnimeGAN介绍动画制作需要考虑线条、纹理、颜色和阴影,十分耗时。因此,能够自动转化real-world photos to high-quality animation style image的技术是很有价值的。现有的技术存在以下问题:1)生成图像没有显著的动画风格的纹理2)生成图像丢失了原有图像
2021-03-31 21:32:15 2160 4
转载 Involution
论文地址:Involution: Inverting the Inherence of Convolution for Visual Recognition官方代码:https://link.zhihu.com/?target=https%3A//github.com/d-li14/involution这篇论文提出的主要贡献:1) 提出了一种新的神经网络算子——involution。它比convolution更轻量更高效,形式上比self-attention更加简洁,可以用在各种视觉任务的模型上取得精
2021-03-30 12:23:24 454
原创 神经网络中的KL散度,以及对于StackGAN++中的CA的理解
KL散度(转载自微信公众号机器之心)首先让我们确立一些基本规则。我们将会定义一些我们需要了解的概念。分布(distribution)分布可能指代不同的东西,比如数据分布或概率分布。我们这里所涉及的是概率分布。假设你在一张纸上画了两根轴(即 X 和 Y),我可以将一个分布想成是落在这两根轴之间的一条线。其中 X 表示你有兴趣获取概率的不同值。Y 表示观察 X 轴上的值时所得到的概率。即 y=p(x)。下图即是某个分布的可视化。这是一个连续概率分布。比如,我们可以将 X 轴看作是人的身高,Y 轴是找到
2021-03-29 22:45:58 1504
原创 T2I论文阅读2020 SegAttnGAN
SegAttnGAN: Text to Image Generation with Segmentation Attention论文阅读本人的话:突然想到如果能把输入文本从一个基于词组和词的句子变成一个基于词组的句子,会不会好一点。这篇论文没啥研究价值。介绍我们的SegAttnGAN,使用segmentation输入来添加额外的空间信息。和 https://editor.csdn.net/md/?articleId=115262969 有点像。创新点:1.生成网络能够同时使用文本和空间信息。2.
2021-03-29 11:01:44 295
原创 T2I论文阅读2020:Image-to-Image Translation with Text Guidance
Image-to-Image Translation with Text Guidance发表于2020.论文地址:https://arxiv.org/pdf/2002.05235.pdf介绍Conditional Image Synthesis包括T2I generation,Image Generation from Scene Graphs,Semantic Layout,Coarse Layout。本论文旨在使用文本命令,从segmentation mask生成图片。实现的关键在于完全
2021-03-28 15:37:52 412
原创 T2I论文阅读2019 MirrorGAN
MirrorGAN: Learning Text-to-image Generation by Redescription论文阅读笔记本人的话:今天能看到演唱会彩排了哈哈哈哈好激动。MirrorGAN的效果比起DM-GAN差上不少,不过有不少可供改进的地方,比如STREAM使用的I2T结构可以换成更先进的。介绍T2I可以看做Image Caption(或I2T)的逆向。我们的MirrorGAN便是利用了这种镜像结构,它包含3个模块:STEM,GLAM,STREAM。STEM生成word-level和
2021-03-25 16:32:01 533
原创 2019-2021 文本生成图片 Text To Image(T2I) Synthesis 论文整理
参考:文本生成图像!GAN生成对抗网络相关论文大汇总A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis介绍了关于GAN生成对抗网络的相关Text-to-Image论文,将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,
2021-03-25 13:19:26 3894
原创 风格迁移 I2I 论文阅读笔记——U-GAT-IT,动漫风格生成
U-GAT-IT: UNSUPERVISED GENERATIVE ATTENTIONAL NETWORKS WITH ADAPTIVE LAYER- INSTANCE NORMALIZATION FOR IMAGE-TO-IMAGE TRANSLATION论文阅读发表于 ICLR 2020代码地址:https://github.com/taki0112/UGATIT 和 https://github.com/znxlwm/UGATIT-pytorch本人的话:由于出了一些意外,现在要先看一些风格迁
2021-03-25 10:54:49 1274
原创 T2I论文阅读笔记——CPGAN
介绍现在的多数方法,比如AttnGAN,StackGAN,都没法正确地将‘sheep’关联到一个羊的图片,也就是他们在解析文本和图片的过程上不够深入。本论文将通过彻底解析文本和图片的内容,从而建立二者的联系。在文本模式上,我们设计了一个memory机制,对于每个单词,通过捕捉在训练过程中的包含该单词的相关图片的各种视觉内容信息来解析文本内容。在图片模式上,我们使用一种以对象为感知的方法来编码生成图片,从而提取出视觉语义。获得的文本嵌入向量和图片嵌入向量被用来计算文本和图片的语义一致性。此外,我们设计了一
2021-03-24 14:58:38 960
原创 T2I论文阅读笔记——TivGAN 文本生成视频
论文源地址:https://arxiv.org/pdf/2009.02018.pdf出版于2020.8.19 发表在IEEE Access本人的话:一些翻译不来的词会直接写英文原文。没有网络整体的细节,不建议复现。摘要本论文提出了一个全新的框架——Text-to-Image-to-Video GAN(TiVGAN),希望实现从文本生成视频。原理主要是逐帧生成最后成为一段完整的视频。在第一阶段,我们专注于通过学习文本与图片的关系生成一个高质量的单个视频帧,然后再将模型用于更多的连续帧上面。关键词:计
2021-03-22 09:44:05 1208 1
原创 T2I论文阅读笔记——DMGAN
DM-GAN Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis论文阅读笔记1. 介绍近年来,GAN在图像和视频的生成上应用广泛,最具代表性的就是Multi-stage model的方法。但它存在两个问题:1. 生成结果很大程度上依赖于initial image的质量,如果initial image的生成结果很差,那么refinement的步骤也不能帮助修改从而生成好的结果。2. 每个单词在描述图片内
2021-03-21 13:53:09 1958 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人