关闭
当前搜索:

看图说话——CNN和LSTM的联合应用

看图说话是深度学习波及的领域之一。其基本思想是利用卷积神经网络来做图像的特征提取,利用LSTM来生成描述。但这算是深度学习中热门的两大模型为数不多的联合应用了。 本文是参考文献[1]的笔记,论文是比较早的论文,15年就已经发表了,不新。但还是想写下来它的细节以备后用。 关于CNN(卷积神经网络)和LSTM(长短期记忆网络)的细节,本文不再赘述其细节。读者们需要了解的是: 卷积神经网络是一种...
阅读(333) 评论(0)

StarGAN-多领域图像翻译

Pix2Pix模型解决了有Pair对数据的图像翻译问题;CycleGAN解决了Unpaired数据下的图像翻译问题。但无论是Pix2Pix还是CycleGAN,都是解决了一对一的问题,即一个领域到另一个领域的转换。当有很多领域要转换了,对于每一个领域转换,都需要重新训练一个模型去解决。这样的行为太低效了。本文所介绍的StarGAN就是将多领域转换用统一框架实现的算法。...
阅读(1008) 评论(0)

CycleGAN-Unpaired图像翻译

在Pix2Pix中,输入图像数据都是成对的。但在现实生活中,两个不同领域的图像很难有成对的。莫奈的画很好,但莫奈永远也画不出21世纪的样子,那么要想让21世纪的图像变成莫奈风格,就必须用到无pair数据。 在语言翻译中,常用的假设是Cycle一致性,即X语言翻译到Y语言在翻译回X语言,应该和初始的表达是一致的。而一言以蔽之,本文介绍的CycleGAN算法就是基于Cycle一致性来解决Unpaired图像翻译问题。...
阅读(790) 评论(0)

Pix2Pix-基于GAN的图像翻译

语言翻译是大家都知道的应用。但图像作为一种交流媒介,也有很多种表达方式,比如灰度图、彩色图、梯度图甚至人的各种标记等。在这些图像之间的转换称之为图像翻译,是一个图像生成任务。 多年来,这些任务都需要用不同的模型去生成。在GAN出现之后,这些任务一下子都可以用同一种框架来解决。这个算法的名称叫做Pix2Pix,基于对抗神经网络实现。...
阅读(1249) 评论(0)

GAN之根据文本描述生成图像

GAN[2,3]的出现使得图像生成任务有了长足的进步。一些比较好玩的任务也就应运而生,比如图像修复、图像超清化、人脸合成、素描上色等。今天我们将介绍一种更加复杂的应用,那就是基于文本生成图像。...
阅读(8512) 评论(1)

看得“深”、看得“清” —— 深度学习在图像超清化的应用

日复一日的人像临摹练习使得画家能够仅凭几个关键特征画出完整的人脸。同样地,我们希望机器能够通过低清图像有限的图像信息,推断出图像对应的高清细节,这就需要算法能够像画家一样“理解”图像内容。至此,传统的规则算法不堪重负,新兴的深度学习照耀着图像超清化的星空。...
阅读(6355) 评论(3)

基于深度学习的图像语义编辑

深度学习在图像分类、物体检测、图像分割等计算机视觉问题上都取得了很大的进展,被认为可以提取图像高层语义特征。基于此,衍生出了很多有意思的图像应用。...
阅读(11617) 评论(10)

卷积“换脸”

卷积“换脸”图像风格转换[1][2][3]在效果上的成功,使得研究者们开始拓展它的应用范围,换脸就是其中之一。在图像风格转换算法框架下,如果将风格图像换做目标人脸,那么就有可能将图像中的人脸换掉。由于图像风格转换的算法框架下是语义级别的图像内容操作,因而,在图像风格转换框架下的换脸可以达到原图的表情、肤色、光照不变。...
阅读(7047) 评论(5)

深度学习之图像修复

图像修复问题就是还原图像中缺失的部分。基于图像中已有信息,去还原图像中的缺失部分。从直观上看,这个问题能否解决是看情况的,还原的关键在于剩余信息的使用,剩余信息中如果存在有缺失部分信息的patch,那么剩下的问题就是从剩余信息中判断缺失部分与哪一部分相似。而这,就是现在比较流行的PatchMatch的基本思想。...
阅读(14588) 评论(11)

卷积新用之语言模型

长期以来,基于LSTM的深度学习算法由于可以对任意长度的上下文进行建模而盘踞在自然语言处理界的山顶。卷积神经网络虽然蠢蠢欲动,却始终不得其法。 而今,这个在CV上嚣张拨扈的东西终于把手伸到了NLP界,而且是在最basic的语言模型问题上。...
阅读(2194) 评论(0)

基于MRF和CNN的图像生成

论文将MRF和CNN结合起来,把[2]的Gram矩阵用MRF Loss进行了替代。即能利用CNN抽象特征的提取能力,又能利用MRF的空间布局限制,提高了生成图像的质量。...
阅读(3746) 评论(0)

感知损失(Perceptual Losses)

图像风格转换算法将图片生成以生成的方式进行处理,如风格转换,是从一张噪音图(相当于白板)中得到一张结果图,具有图片A的内容和图片B的风格。而Perceptual Losses则是将生成问题看做是变换问题。即生成图像是从内容图中变化得到。...
阅读(6704) 评论(0)

深度卷积对抗生成网络(DCGAN)

卷积神经网络在有监督学习中的各项任务上都有很好的表现,但在无监督学习领域,却比较少。本文介绍的算法将有监督学习中的CNN和无监督学习中的GAN结合到了一起。...
阅读(32129) 评论(8)

面朝大海——我的2016

终于,当我坐下回味的时候,我也有了我要怀念的事物,想象中的过去,总是那么的美好。快乐是美好的,激动是美好的,甚至痛苦是美好的,消沉也是美好的。2016,教给我的,就是面朝大海,吞吐一切。别人自有别人的辉煌风光,而我活出了自己的波澜壮阔。...
阅读(5603) 评论(4)

图像风格转换(Image style transfer)

图像风格转换是最近新兴起的一种基于深度学习的技术,它的出现一方面是占了卷积神经网络的天时,卷积神经网络所带来的对图像特征的高层特征的抽取使得风格和内容的分离成为了可能。另一方面则可能是作者的灵感,内容的表示是卷积神经网络所擅长,但风格却不是,如何保持内容而转换风格则是本文所要讲述的。...
阅读(19855) 评论(3)

对抗生成网络(Generative Adversarial Net)

现在,生成模型还没有体会到深度学习的利好,在Discriminative模型上,成果如雨后春笋,但在生成模型上,却并非如此。原因如下: - 在最大似然估计及相关策略上,很多概率计算的模拟非常难 - 将piecewise linear units用在生成模型上比较难 那么,是不是生成模型就借不了深度学习发展的东风了呢?我只能说,有的时候,不得不曲线救国。...
阅读(21912) 评论(5)

我的硬汉观——《丧钟为谁而鸣》读书感悟

谁都不是一座岛屿,自成一体;每个人都是欧洲大陆的一小块,那本土的一部分;如果一块泥巴被海浪冲掉,欧洲就小了一点,如果一座海岬,如果你的朋友或你自己的庄园被冲掉,也是如此;任何人的死亡使我有所缺损,因为我与人类难解难分;所以千万不必去打听丧钟为谁而鸣;丧钟为你而鸣。...
阅读(3791) 评论(2)

tensorflow架构

TensorFlow,以下简称TF,是Google去年发布的机器学习平台,发布以后由于其速度快,扩展性好,推广速度还是蛮快的。江湖上流传着Google的大战略,Android占领了移动端,TF占领神经网络提供AI服务,未来的趋势恰好是语音图像以及AI的时代,而Google IO上发布的Gbot似乎正是这一交叉领域的初步尝试。...
阅读(38402) 评论(9)

ReLU上的花样

ReLU的有效性体现在两个方面: 克服梯度消失的问题 加快训练速度 而这两个方面是相辅相成的,因为克服了梯度消失问题,所以训练才会快。...
阅读(7320) 评论(0)

美国MTV之行

世界很大,有无限的可能性。这句话是真的。——题记一 世界很神奇,存在着另一个国度,说的语言不一样,拥有的文化不一样,社会情境也不一样,生活习惯也不一样,这本身就是足以令人震撼的事情。关键是它目前还是最先进最强大的国家。所以这次出行,我是抱着朝圣之心去的,无论是去公司总部还是去这个国家。——题记二...
阅读(4945) 评论(11)
94条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1125235次
    • 积分:8409
    • 等级:
    • 排名:第2841名
    • 原创:86篇
    • 转载:4篇
    • 译文:4篇
    • 评论:560条
    博客专栏
    博客公告