图像处理
文章平均质量分 59
imperfect00
如果有梦想不去坚持实现,就是空想。
展开
-
caffe ssd精度评价
可以参考,https://github.com/intel/caffe/blob/master/models/intel_optimized_models/ssd_mobilenet/fp32_acc.prototxt原创 2018-12-10 14:07:15 · 774 阅读 · 0 评论 -
invertible Conditional GANs for image editing
github代码为https://github.com/Guim3/IcGAN通常GAN的生成网络输入为一个噪声向量z,文献的创新点是,利用一个encoder网络,对输入图像提取得到一个特征向量z,将特征向量z,以及需要转换的目标attribute向量y串联输入生成网络,得到生成图像,网络结构如下,如上图所示,包括连个encoder网络,分别为Ez,EyE_z,E_y,EzE_z用于将输入图像编码为原创 2018-01-01 15:51:59 · 2255 阅读 · 0 评论 -
Stacked Conditional Generative Adversarial Networks for Jointly Learning Shadow Detection and Shadow
文章提出了包含两个生成网络,两个判别网络的网络结构,用于去除图像中的阴影,并还原没有阴影的真实图像.网络机构图如下,生成网络G1用于检测阴影区域,输入为包含阴影的图像,输出为阴影区域图像.生成网络G2用于去除阴影,输入为包含阴影的图像和G1生成的二值图像的,输出为去除阴影的图像.判别网络D1,D2用于监督这两个生成过程,直到模型收敛.判别网络D1的输入为,将阴影图像分别和G1检测的阴影区域图像,目标原创 2017-12-17 15:21:48 · 1916 阅读 · 0 评论 -
starGAN原理代码分析
下载:git clone https://github.com/yunjey/StarGAN.gitcd StarGAN/下载celebA训练数据:bash download.sh训练:python main.py --mode='train' --dataset='CelebA' --c_dim=5 --image_size=128 \ --sample_path原创 2017-12-02 19:50:02 · 8365 阅读 · 4 评论 -
UNSUPERVISED CROSS-DOMAIN IMAGE GENERATION
本文提出了一个域转换网络(domain transfer network,DTN),网络的作用是,对于给定两个域S,T,我们希望学习一个生成函数G,将S域的样本映射到域T,这样,对于一个给定函数f,不管f的输入为来自域S或T,f的输出会保持不变.网络结构如下: 生成网络包括函数f,g.f用于提取输入图像的特征,得到一个特征向量.g的输入为f的输出,输出为目标风格的图像.训练数据为为无监督数据,即,原创 2017-11-22 18:22:57 · 3070 阅读 · 0 评论 -
Neural Discrete Representation Learning-代码分析
VAEVAE包括一下几部分:1)一个encoder网络,对后验分布 q(z|x) 进行参数化,z 是离散隐随机变量,x 为输入数据;2)先验分布 p(z);3)一个decoder网络,它的输入数据分布是 p(x|z)。VQ-VAE使用离散隐变量,受向量量化的启发用一种新的方式进行训练。后验和先验分布是明确分类的,从这些分布中提取的样本可通过嵌入表进行索引。然后将这些嵌入作为解码器网络的输入。网络结构原创 2017-11-15 19:37:12 · 3927 阅读 · 1 评论 -
focal loss
在物体检测中,一张图像可以生成成千的candidate locations,而其中只有少数的candidate locations包含object,也就是绝大多数的candidate locations都为一个类别(背景),导致类别不均衡.在训练的时候,这些绝大多数的candidate locations占损失函数的大部分,且由于都属于一个类别,容易分类,因此导致模型的优化方向很难朝着我们希望的能检原创 2017-11-03 19:10:19 · 1703 阅读 · 0 评论 -
Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image
着色原理网络结构为:输入为灰度图像,输出为彩色图像.网络结构包括四个部分,Low-Level Feature Network用于提取图像的低层特征,提取低层特征后,通过一个Mid-Level Feature Network得到中间特征,另外通过Global Feature Network提取全局特征,将全局特征与中间特征融合,即Fusion layer,之后将融合特征输入Colorization N原创 2017-10-12 19:56:45 · 1025 阅读 · 0 评论 -
Deep Identity-aware Transfer of Facial Attributes
网络分为两部分,第一部分为face transform network,得到生成图像,该网络还包括一个判别网络用于判别输入图像的真假,以及一个VGG-Face Netowork,用于判别输入图像的性别,即identity loss.利用face transform network得到的生成图像比较模糊,因此将生成图像输入一个enhancement network,得到增强图像.网络结构如下:face原创 2017-10-18 18:34:07 · 1508 阅读 · 0 评论 -
FACE AGING WITH CONDITIONAL GENERATIVE ADVERSARIAL NETWORKS
文章用于生成不同年龄的图片,采用的模型是条件对抗网络,主要创新点是,首先通过一个网络,提取图像特征向量,并通过身份保持网络,优化图像的特征向量,特到特征向量z∗z^*,之后便可以对于每个输入年龄,查找其年龄向量,并将该年龄向量与输入图片特征向量z∗z^*串联,输入生成网络,生成目标年龄图片.特征向量优化网络结构如下,网络的训练数据为,输入图像x,以及该图像的年龄y0y_0,对输入图像,将其输入Enc原创 2018-01-11 18:26:53 · 2229 阅读 · 0 评论 -
CoGAN
文章的思想是,利用网络层的权重共享约束,训练GAN网络.模型包括两个生成网络,两个判别网络,训练数据为不成对的两个域Domain1,Domain2的图片,我们希望的是训练的两个生成网络g1,g2能够在输入向量z相同的情况下,生成的图片高频信息相同,低频信息不同.因此在觉得高频特征的生成网络的前几层,将两个生成网络的权重共享,并且,将两个判别网络f1,f2的最后几层网络权重共享,如上图所示.原创 2018-01-21 18:58:51 · 3636 阅读 · 0 评论 -
image caption学习笔记
show and tellcnn-lstm结构,cnn部分采用vgg,使用的是vgg的fc2层作为输出图片特征。得到图片特征后,将其输入一个线性层(CNN),得到x−1x_{-1}x−1作为第一个lstm的输入,对于输入句子的每个字sts_{t}st,将其与权重参数wew_ewe相乘,输出作为lstm的输入,模型结构如下,inference有两种方法得到输出,一种是直接去概率最大...原创 2018-11-01 18:15:32 · 1257 阅读 · 0 评论 -
图像相似度计算-kmeans聚类
关于图像相似度,主要包括颜色,亮度,纹理等的相似度,比较直观的相似度匹配是直方图匹配.直方图匹配算法简单,但受亮度,噪声等影响较大.另一种方法是提取图像特征,基于特征进行相似度计算,常见的有提取图像的sift特征,再计算两幅图像的sift特征相似度.对于不同的图像类型,也可以采用不同的特征,例如对于人脸如下,可以采用人脸识别网络提取人脸特性向量.本文介绍利用LightCNN提取人脸特征向量,并进行...原创 2018-03-11 10:05:55 · 14137 阅读 · 0 评论 -
Face Aging with Contextual Generative Adversarial Nets
网络结构如图2所示,首先按照68个人脸特征点对输入图像进行对齐,之后,采用Deeplab v2算法将输入图像分割为人脸区域,和非人脸区域,并将非人脸区域标记为灰色.生成网络-Transformer network将处理后的图像,与年龄lable yyy输入到条件变换网络(G,Transformer),得到合成图像G(x,y)G(x,y)G(x,y)(fake image).生成...原创 2018-02-10 15:06:45 · 784 阅读 · 0 评论 -
Decoupled Learning for Conditional Adversarial Networks
文章提出里在已有的ED+GAN的基础上,添见一个生成网络,即ED//GAN,网络结构如下,上图中左边为传统的GAN网络,Enc+Dec相当于生成网络,D为判别网络,构造GAN损失函数,以及生成图片与输入的重构误差(L1损失函数,这种网络结构我们熟悉的有pix2pix,cyclegan.上图中右边为本文提出的网络结构,即在ED+GAN的基础上,添加一个生成网络,相当于有两个生成网络.两个原创 2018-01-26 20:54:51 · 632 阅读 · 0 评论 -
EffNet: An Efficient Structure for Convolutional Neural Networks
EffeNet对MoblieNet网络进行改进,主要思想为:首先,将MoblieNet的3×33\times3的depthwise convolution层分解为两个3×13\times1,1×31\times3depthwise convolution层.这样便可以在第一层之后就采用pool操作,从而减少第二层的计算量. 如图1所示,在第一个卷积层之后,使用1×21\times2 ma原创 2018-01-23 18:33:56 · 1248 阅读 · 0 评论 -
SqueezeNet猫狗识别
caffe训练数据准备新建data存放训练数据,test_data存放测试数据,data,test_data目录下新建每个类别对应的文件夹,用于存放每个类别的图片,例如,分为cat,dog两类,则分别新建目录cat,dog,/home/data/cat /home/data/dog/home//test_data/cat /home//test_data/dog数据转换为caffe训练数据格式训原创 2017-12-30 13:43:18 · 4811 阅读 · 1 评论 -
Age and gender estimation based on Convolutional Neural Network and TensorFlow
训练数据处理imdb数据提取gender: 0 for female and 1 for male, NaN if unknownage: 年龄分为101类,分别为从0到100岁.将训练数据转换为tfrecords格式,命令为,python convert_to_records_multiCPU.py --imdb --nworks 8 --imdb_db /home/research/data/原创 2017-12-30 13:07:13 · 1200 阅读 · 1 评论 -
Masking GAN
github代码:https://github.com/tgeorgy/mgan文章的创新点:1.生成网络输入x,输出包括分割模板mask,和中间图像y,根据mask将输入x与中间图像y结合,得到生成图像.这样得到的生成图像背景与输入x相同,前景为生成部分.2.采用端到端训练,在cyclegan损失函数的基础上,添加了对输出生成图像进行约束.模型结构如下,生成网络首先输出为分割模板mask,以及中间原创 2018-01-14 16:43:46 · 2643 阅读 · 0 评论 -
Pose Guided Person Image Generation
生成网络网络包含两个生成网络,分别为G1,G2.生成网络G1输入为condition image和target pos的串联,生成粗略的姿势图像,即coarse result.生成网络G2,将condition image,与生成网络G1的输入串联,输入G2,生成一个difference map.将G1,G2生成图像相加得到最后的生成图像,即refined result.判别网络判别网络用于判别输入原创 2017-09-10 11:49:21 · 4206 阅读 · 0 评论 -
空间变换网络--spatial transform network
CNN分类时,通常需要考虑输入样本的局部性、平移不变性、缩小不变性,旋转不变性等,以提高分类的准确度。这些不变性的本质就是图像处理的经典方法,即图像的裁剪、平移、缩放、旋转,而这些方法实际上就是对图像进行空间坐标变换,我们所熟悉的一种空间变换就是仿射变换,图像的仿射变换公式可以表示如下: 式中,(xSource,ySourcex^{Source},y^{Source})表示原图像像素点,(xTar原创 2017-09-10 11:11:44 · 40735 阅读 · 0 评论 -
Recurrent visual attention
本文将深度学习与聚焦机制和强化学习结合起来,通过学习本篇文献,可以: 理解聚焦机制中较简单的hard attention 了解增强学习的基本流程 (1)注意力机制(Attention)以物体识别为例,在进行分类的时候,不是一次对一张大图进行估计,而是分多次观察小部分图像,首先初始化一个图像坐标点l,以该坐标点为中心提取小部分图像,并通过一个Gilpse网络图区该部分的图像特征向量,将该部分的图原创 2017-09-10 10:37:28 · 461 阅读 · 0 评论 -
matlab图像光照效果模拟
1.选取光源中心点(x0,y0) 加入输入图像宽,高分别为w,h,如果旋转光源在图像中心,则: x0=w/2 y0=h/2 2.求光照图像模拟光照方法为,离点光源越近的像素点的亮度值越大, f(x,y)=k∗(1−(x−x0)2+(y−y0)2√r)f(x,y)=k*(1-\frac{\sqrt{(x-x_0)^2+(y-y_0)^2}}{r})这里,k为常数,r为光源作用半径.clcc原创 2017-09-04 18:55:29 · 5522 阅读 · 0 评论 -
PSPNet(Pyramid Scene Parsing Network)
github代码:https://github.com/hszhao/PSPNet/tree/4b53f1c97a5921a99a965a60c0940eec2d46bb06对于场景分类(Scene parsing),主流的方法为全卷积网络即FCN(fully convolutional network),然而FCN的一个缺点就是无法利用全局场景类别信息(global scene catego原创 2017-08-14 19:19:33 · 8699 阅读 · 0 评论 -
Image Denoising via CNNs: An Adversarial Approach
传统的图像去噪算法大多需要知道噪声的先验知识,如高斯滤波通常对高斯噪声有效,而中值滤波通常对椒盐噪声有效等.文献提出了使用卷积神经网络的图像盲去噪模型,不需要先验信息,输入为单幅含噪图像,输出为清晰图像,模型结构图如下:模型结构包括两部分:(1)多尺度特征提取:使用多个不同大小的卷积核获取图像特征,以去除噪声的影响,并将所有的特征串联.每个卷积核层的output channel原创 2017-08-07 12:17:37 · 2562 阅读 · 0 评论 -
Deep Bilateral Learning for Real-Time Image Enhancement
模型结构为:low resolutioion 图像特征提取1 low-lever features如上图所示,利用nSn_S个卷积(4层,卷积核为3×33\times3,stride=2),从low-resolution图像中提取低层特征SiS^i:,公式如下: 式中,I=1,...,nSI=1,...,n_S为每个卷积层的索引,c,c′c,c'为为卷积层的channels的索引.w′w'为卷积核原创 2017-08-20 13:00:09 · 8705 阅读 · 0 评论 -
实时语义分割--ICNet for Real-Time Semantic Segmentation on High-Resolution Images
ICNet语义分割算法原创 2017-08-20 13:14:05 · 8069 阅读 · 0 评论 -
dilated convolution
参考论文:Multi-Scale Context Aggregation by Dilated Convolutions图像语义分割为,将图像像素点进行分类,例如FCN(全卷积网络),首先将输入图像输入CNN提取图像特征,在输入pooling层,以缩小尺寸并提高感受野。但由于是对图像的每个像素点进行分类,即输出与输入大小相同,因此pooling之后需要对其进行upsampling,以扩大图像尺寸。将原创 2017-08-13 13:24:42 · 1292 阅读 · 0 评论 -
RAISR(Rapid and Accurate Super Image Resolution)
RAISR(Rapid and Accurate Super Image Resolution)Rapid and Accurate Super Image Resolution为快速精确的超级图像分辨率技术,用于图像的压缩,意在将低分辨率图像转换为高分辨率图像.原创 2017-08-12 11:16:45 · 10466 阅读 · 0 评论 -
cycle GAN
tensorflow 代码:https://github.com/XHUJOY/CycleGAN-tensorflow原理:传统的gan需要图像对x-y,本文提出了循环gan,模型包含两个生成网络,分别为G:X->Y,F:Y->X,两个生成网络分别对应两个判别网络,.引入cycle consistency losses”,,.模型结构如下图:损失函数:原创 2017-08-11 20:12:55 · 3496 阅读 · 0 评论 -
双边滤波原理理解
bilateral filter双边滤波是一种保边缘滤波,输出像素值由邻域像素的加权组合得到,公式如下: 当前像素点p的值,由邻域N(p)中的所有像素点q∈N(p)q\in N(p)加权求和得到,权重系数为WpqW_{pq},Wpq=Gσs(||p−q||)Gσr(||Ip−Iq||W_{pq}=G_{\sigma_s}(||p-q||)G_{\sigma_r}(||I_p-I_q||GσG_{\原创 2017-08-26 19:04:06 · 3831 阅读 · 0 评论 -
Regression by Conditional Adversarial Autoencoder
文章的思想是在对抗网络的基础上,引入年龄,性别等先验信息.网络结构图如下: 对于输入图像,即input face,将其输入4个卷积层,stride=2,加一个全连接层,FC_1,得到输出特征向量z,z的维度为50.将特征向量输入generator G网络,得到输出生成图像.网络中包含两个判别网络,discriminator z,用于判别输入维度50的向量z_prior,以及输入图像的encoder原创 2017-09-05 15:44:29 · 1576 阅读 · 0 评论 -
A neural algorithm of artistic style
文章的目的是对于给定的风格化模板,将其风格传输到输入图像中,风格传输采用的VGG的1-5个conv层,网络具体结构如下: 图中,底端图片从左到右分别为风格图像(style image),风格转换结果图像(result image),未风格转换的图像(content image),左边的网络的目的是使得style image 与result image 的风格特征尽量相似,这里用conv层的feat原创 2017-09-10 10:18:13 · 442 阅读 · 0 评论 -
Video Frame Interpolation via Adaptive Separable Convolution
输入相邻的2帧图像I1,I2I_1,I_2,到一个encoder-decoder网络,encoder-decoder网络输出到4个子网络,4个子网络分别输出得到卷积核k1,h,k1,v,k2,h,k2,vk_{1,h}, k_{1,v}, k_{2,h}, k_{2,v}.用预测的卷积核k1,h,k1,v,k_{1,h}, k_{1,v},与输入帧I1I_1进行卷积操作,卷积核k2,h,k2,v,k原创 2017-09-17 11:55:18 · 1683 阅读 · 0 评论 -
Image Smoothing via L0 Gradient Minimization
研究背景与意义图像分解:将图像分解为具有不同特征的两层或多层图像。应用领域:图像去噪,图像增强,高动态图像压缩。(1)非真实感图像(卡通,铅笔画)(2)去除卡通图像中的振铃现象(去噪)(3)对比度增强(图像增强)(4)图像压缩(HDR图像压缩)(5)边缘矫正,使边缘变换更平缓L0 smothing算法原理图像分解为基础层图像和细节层图像:I=S+DI=S+D 式中,II为输入图像,SS为基础层图像,原创 2017-08-30 20:02:50 · 3254 阅读 · 0 评论 -
Enhanced Deep Residual Networks for Single Image Super-Resolution
网络结构为,conv(3,3)+residual block(N个residual block层),+conv(3,3)+upsample block.residual block:def resBlock(x,channels=64,kernel_size=[3,3],scale=1): tmp = slim.conv2d(x,channels,kernel_size,activation_原创 2017-09-23 23:08:20 · 831 阅读 · 0 评论 -
DCGAN代码分析
生成网络生成网络输入为噪声向量z,和输出类别向量y,输出为生成图像.以手写字体图像为例,z为100维的向量,由于手写字体分为10类,因此输出类别向量y为10维的向量,对应的类别的索引值为1,其他值为0.代码如下:def generator(self, z, y=None): with tf.variable_scope("generator") as scope: if not self原创 2017-09-23 22:52:53 · 2413 阅读 · 0 评论 -
Style Transfer for Anime Sketches with Enhanced Residual U-net and Auxiliary Classifier GAN
网络结构本文的GAN网络结构为:生成网络的输入为需要风格转换的图像即input,以及风格特征.采用VGG16/19的fc1层,提取风格图像的特征,风格特征为4096维的向量.生成网络结构和目标函数文章试验发现,如果u-net可以使用底层的网络学习到特征,那么高层的网络就不会去学习,如图4所示,u-net网络的输入输出都为同一张图像,也就是实现复制图像的功能.由于输入输出是相同的,损失函数会立刻变为0原创 2017-09-23 22:49:52 · 2750 阅读 · 0 评论 -
Fast Image Processing with Fully-Convolutional Networks
主要应用,1.滤波,如L0 平滑滤波;2.对比度增强3.风格转换4.雾天图像清晰化5.铅笔化(pencil drawing) 网络结构网络为9层空洞卷积(dilation convolution),每层卷积核大小为3×33\times3,stride=1. 1-7层dilation 值依次递增,分别为1,2,4,8,16,32,64,8,9层dilation rate为1.第s层的feature原创 2017-09-06 17:57:11 · 1781 阅读 · 0 评论 -
Image-to-Image Translation with Conditional Adversarial Networks
参考文献:https://arxiv.org/pdf/1611.07004.pdfgithub tensorflow实现代码:https://github.com/yenchenlin/pix2pix-tensorflow背景知识:U-Net: Convolutional Networks for BiomedicalImage Segmentation生成网络原创 2017-08-04 13:46:32 · 1398 阅读 · 0 评论