![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 68
一只高空猿
ByteDance!
展开
-
WGAN 筆記
WGAN现有研究样本拟合关于拟合一个样本分布的传统方法是使用另一个概率分布去对其进行拟合,即使用两个分布的KL散度作为损失函数,以此为目标对其不断进行优化。局限:现实场景下,KL散度不一定存在,在GAN文章中说明了过度依赖KL逆散度会出现模型坍塌的问题。传统的生成方法认为:利用加入高斯噪声的方法能够cover所有的case。局限:高斯噪声会降低图像的质量GAN定义了一个变量z和一个生成函数G(神经网络模型),通过不断优化G的参数θ\thetaθ,使模型能够产生服从于现分布的样本。局限:不稳定原创 2021-07-02 22:21:52 · 158 阅读 · 0 评论 -
GAN 笔记
GAN计算过程目标: 学习一个在x上的分布pgp_gpg定义:随机噪声z作为输入:Pz(z)P_{z}(z)Pz(z)生成网络函数:G(z;Θg)G(z;\Theta_g)G(z;Θg)用来表示可导函数G在参数θg\theta_gθg下的函数判别网络函数:D(x;θd)D(x;\theta_d)D(x;θd)的输出是一个{0,1}标量,D(x)表示x是否为从真实样本中取的样例。对于判别网络而言:它的目标是最大程度的识别出真实样本和G产生的对抗样本。对于生成网络而言,它的目标是让判别原创 2021-07-02 22:20:46 · 172 阅读 · 0 评论 -
DCGAN 笔记
DCGAN研究内容提出了对网络进行限制的手段,使GAN的训练过程更加稳定使用GAN的判别器作为图像分类任务的分类器对卷积核进行可视化,验证了特定的卷积核用来产生特定的图像本文方法生成网络中,使用卷积层替换所有池化层,使网络学习它本身的下采样方法。删除全连接层,虽然全连接层能够提高稳定性,但是会影响收敛速度。添加BN层,使得梯度能够向深层传递,防止模型坍塌。但每一层都使用BN会导致模型出现震荡,所以本文在生成器输出层和判别器输入层不加BN。使用ReLU对生成器除输出层以外原创 2021-07-02 22:17:40 · 120 阅读 · 0 评论 -
Cycle-GAN 笔记
Cycle-GAN在缺少GT的情况下,利用GAN捕获某组图像的特点,实现图像迁移。相关研究风格迁移:使用Gram矩阵实现图片级别的映射关系。非对称的图像迁移:跨模态场景网络使用权重共享的策略,生成不同场景下的共同表征。本文方法本文目的是寻找两个不同风格图片之间的映射关系:$G: X->Y \F: Y->X$判别器的作用与传统GAN的判别器作用相同。损失函数由两部组成:对抗损失:通过不断优化, 使生成器能够生成从X到Y的映射。循环一致损失:防止G和F原创 2021-07-02 22:16:48 · 224 阅读 · 0 评论 -
ConSinGAN 笔记
ConSinGAN使用一张图片训练一个对抗生成网络。相关研究SinGAN原理:从一个分辨率很低的图像开始,进行多阶段的训练,每进入一个新的阶段,就加入更多的计算层。在每个训练阶段,都将先前阶段的计算层冻结,只在新加入的层上训练。原因:如果只在新加入的层上进行计算,相当于将输入不断的作为input输入到新加入的层中,会影响模型的训练过程。如果每次都在所有层上计算,并对所有层的权重进行优化,则很容易造成模型的过拟合。研究内容低维的特征对于保持图像的结构贡献较大,高维特征对于保持图像的纹理特征和原创 2021-07-02 22:14:56 · 1619 阅读 · 2 评论 -
cGAN 笔记
cGAN不用手动设计损失函数,模型可以学习一个损失函数,使得一个模型可以被应用到不同的任务中。在每一个图像迁移的任务中,使用同一个损失函数和网络模型,就可以应用到不同的数据集上。图像迁移的低级做法:使用欧式距离作为损失函数,但欧式距离会统计所有置信输出的平均值,所以会造成图像模糊。图像迁移的高级做法:使用GAN,只要将生成的图片与真实图片尽可能接近就可以了。本文方法传统的GAN使用随机噪声z来训练一个生成器实现迁移任务:G:z−>yG: z->yG:z−>y,本文方式中使用原创 2021-07-02 22:10:45 · 941 阅读 · 0 评论 -
Sound to Visual_ Hierarchical Cross-Modal Talking 笔记
“Sound to Visual: Hierarchical Cross-Modal Talking Face Video Generation”像是一篇讲GAN应用的文章。任务描述:对于给定的一个音频,需要用GAN生成人脸,使人脸看起来好像在读音频。研究价值:帮助听力障碍人士获取音频信息; 在电影或者游戏中,根据音频生成角色的面部动作。数据集:(GRID、LRW、VoxCeleb、TCD)评估指标:用来判断图像质量的指标:(衡量重建图像和原图的相似性)SSIM:结构相似性。使用较少,多原创 2021-07-02 22:08:55 · 213 阅读 · 0 评论 -
05-图像纹理恢复
05-图像纹理识别计算机视觉之纹理一幅图像的纹理是在图像计算中经过量化的图像特征。图像纹理描述图像或其中小块区域的空间颜色分布和光强分布。纹理特征的提取分为基于结构的方法和基于统计数据的方法。一个基于结构的纹理特征提取方法是将所要检测的纹理进行建模,在图像中搜索重复的模式。该方法对人工合成的纹理识别效果较好。但对于交通图像中的纹理识别,基于统计数据的方法效果更好。CNN的卷积操作是以滑窗方式...原创 2020-04-08 18:00:43 · 2476 阅读 · 0 评论 -
03-对抗样本攻击
对抗样本攻击Github:https://github.com/Gary11111/03-GAN研究背景尽管深度学习在很多计算机视觉领域的任务上表现出色,Szegedy第一次发现了深度神经网络在图像分类领域存在有意思的弱点。他们证明尽管有很高的正确率,现代深度网络是非常容易受到对抗样本的攻击的。这些对抗样本仅有很轻微的扰动,以至于人类视觉系统无法察觉这种扰动(图片看起来几乎一样)。这样的攻击...原创 2020-04-08 17:50:57 · 4450 阅读 · 1 评论 -
02-特征逆推图像实验
特征逆推图像github: https://github.com/Gary11111/02-Inversion文章目录特征逆推图像研究背景``ONNX``VGGNET结构py实现卷积层HOG 方向梯度直方图SIFT 尺度不变特征转化作业的思路记录TF优化器内置方法compute_gradients(loss, val_list)apply_gradients(grads)正则化方法:TV全变分...原创 2020-04-08 17:48:42 · 678 阅读 · 0 评论