深度学习
文章平均质量分 91
涵小呆
这个作者很懒,什么都没留下…
展开
-
基于深度学习的帧内预测技术
在视频编码中,帧内预测是通过空域相邻像素预测当前块的像素,传统编码中帧内预测技术包括角度模式、DC和Planar模式,现在很多都开始使用深度学习来进行帧内预测。大部分使用深度学习进行帧内预测的网络主要分为:全连接神经网络或者全卷积神经网络或者卷积神经网络和全连接神经网络的结合。这里对各种方法进行一下总结,也梳理一下思路。Fully Connected Network-Based Intra Prediction for Image Coding这是第一篇使用全连接神经网络进行帧内预测的论文,称之原创 2021-06-07 22:09:04 · 3608 阅读 · 7 评论 -
图解AI:各种类型的卷积-标准卷积、反卷积、可分离卷积、分组卷积等
一、卷积的基本属性卷积核(Kernel):卷积操作的感受野,直观理解就是一个滤波矩阵,普遍使用的卷积核大小为3×3、5×5等;步长(Stride):卷积核遍历特征图时每步移动的像素,如步长为1则每次移动1个像素,步长为2则每次移动2个像素(即跳过1个像素),以此类推;填充(Padding):处理特征图边界的方式,一般有两种,一种是对边界外完全不填充,只对输入像素执行卷积操作,这样会使输出特征图的尺寸小于输入特征图尺寸;另一种是对边界外进行填充(一般填充为0),再执行卷积操作,这样可使输出特征图的转载 2021-06-02 21:09:27 · 4294 阅读 · 1 评论 -
基于深度学习的跨分量预测技术
A HYBRID NEURAL NETWORK FOR CHROMA INTRA PREDICTION基于之前的亮度和色度之间建立线性模型从而预测色度像素的LM方法,该文章研究了一种利用神经网络提取亮度像素和色度像素间的相关性,并通过神经网络来预测色度像素的方法。该文章采用了全连接网络和卷积网络相结合的方法:对亮度相邻像素和色度相邻像素使用全连接层,提取有用信息 使用卷积神经网络模拟亮度像素和色度像素间的关系网络结构:如图,以YUV420视频中的32x32大小的亮度块为例,由于色度.原创 2021-05-31 20:54:24 · 1000 阅读 · 1 评论 -
图解Transformer
原文标题:The Illustrated Transformer原文链接:https://jalammar.github.io/illustrated-transformer/论文地址:https://arxiv.org/abs/1706.03762前言Transformer在Goole的一篇论文Attention is All You Need被提出,为了方便实现调用Transformer Google还开源了一个第三方库,基于TensorFlow的Tensor2Tensor,一个NL.转载 2021-05-13 21:25:50 · 398 阅读 · 0 评论 -
基于NN的编码:Content-adaptive neural network post-processing filter(Nokia Technologies)
JVET-V0075该提案为了深度学习作为滤波的编解码器复杂度之间进行权衡,提出了一种新的训练方法:在一个足够大的数据集上预先训练一个相对较小的后处理神经网络,然后将其作为编码操作的一部分专门用于输入视频序列,对网络进行微调。网络结构和工作流程我们的NN过滤器的架构如图1所示。NN的输入是YUV+归一化的QP。第一块包括64个核的卷积层(不包括偏置)、偏置层、作为非线性激活函数的LeakyReLU。跟随4个与第一个块中的层相似的块,但是每个块的输入都添加到块的输出(通过使用skip connec原创 2021-05-10 22:02:21 · 573 阅读 · 1 评论 -
基于NN的编码:Convolutional Neural Networks-based In-Loop Filter(Bytedance)
JVET-T0088本文提出的CNN滤波网络的结构如下左图所示。为了增加感受野并降低复杂度,该方法在开始时包含一个步长为2的卷积层。通过该层后,Feature Map的空间分辨率在水平和垂直方向上都降低到输入大小的一半。再将该降低分辨率的Feature Map经过几个顺序堆叠的残差块(如下图右所示)。最后一个卷积层将最后一个残差块的Feature Map作为输入,生成4个N×N的Feature Map,最后采用Shuffle层生成空间分辨率与输入相同的图像,即2N×2N大小。网络的细节如下:原创 2021-04-14 17:57:19 · 573 阅读 · 0 评论 -
基于NN的编码:Preliminary results of Neural Network Loop Filter[DNNVC](Alibaba)
在本提案中,提供了一个基于神经网络的环路滤波器(neural network based loop filter,NNLF)的初步结果。初步结果表明,在HD序列的RA配置下,NNLF对Y、U和V分量的编码增益分别比VVC高5.57%、12.55%和13.62%。网络结构本提案使用残差网络结构(ResNet),如图左所示,主要有m层的resblock组成,resblock的结果如右图所示,其中act指的是active function,即激活函数。网络总共64层,采用3x3x64的卷积核,使用ReLU原创 2021-04-07 15:10:57 · 561 阅读 · 4 评论 -
基于NN的编码:In-loop filtering based on neutral network(Kwai)
JVET-T0094本提案提出了一种基于深度学习的环内滤波器。提出的环路滤波器位于Deblock和SAO级之间。基于VTM9.0的实现,对于AI和RA配置,所提出的基于深度学习的滤波器的平均{Y,U,V}BDbdrate性能分别为{-4.99%,-16.39%,-17.34%}和{-3.92%,-18.09%,-16.93%}。如下图所示,所提出的NN Filter位于DB和SAO之间。网络结构所提出的神经网络结构如图(a)所示,结构包括残差块(RB)和二维上采样卷积。网络的输入为YUV原创 2021-04-07 11:56:03 · 483 阅读 · 5 评论 -
如何解决神经网络训练时loss不下降的问题
一、训练集loss不下降训练集的loss在训练过程中迟迟不下降,一般是由这几个方面导致的。1.模型结构和特征工程存在问题如果一个模型的结构有问题,那么它就很难训练,通常,自己“自主研发”设计的网络结构可能很难适应实际问题,通过参考别人已经设计好并实现和测试过的结构,以及特征工程方案,进行改进和适应性修改,可以更快更好的完成目标任务。当模型结构不好或者规模太小、特征工程存在问题时,其对于数据的拟合能力不足,是很多人在进行一个新的研究或者工程应用时,遇到的第一个大问题。比如我在搭建wavnet转载 2021-04-06 15:17:33 · 2383 阅读 · 0 评论 -
基于NN的编码:Neural Network-based In-Loop Filter(Qualcomm)
JVET-T0079本文提出了一种基于神经网络的环路内滤波器作为附加的环路内滤波器级,并将其放置在ALF滤波器之后。因此,将ALF的输出作为NN滤波器的输入。网络结构本文提出的NN滤波器如下图所示。它包含14层,包括12个隐藏层,每层96个通道。每个隐藏层由一个3x3卷积层和一个Leaky RELU组成。总共有大约100万个模型参数。NN滤波的输入是一个128x128大小的亮度块和2个64x64的色度块。在滤波之前,使用JVET-M0159中提出的方法,对128x128的亮度块进行4次2原创 2021-03-24 22:13:15 · 766 阅读 · 2 评论 -
基于NN的编码:Dense Residual Convolutional Neural Network based In-Loop Filter[DRNLF](Tencent)
Dense Residual Convolutional Neural Network based In-Loop FilterDRNLF是由腾讯和武汉大学合作提出的,基于神经网络的环路滤波,作为DF和SAO之间的附加滤波器,DRNLF最早是在JVET-K0391提案中提出,之后并不断改进,本文总结该滤波器的演进过程。JVET-K0391A.Dense Residual Unit(DRU)ResNet中的残差学习可以有效地解决梯度消失问题,并有助于深层网络的训练。DenseNet中的密集原创 2021-03-23 22:22:44 · 1027 阅读 · 0 评论 -
Squeeze-and-Excitation Networks(SENet)
Squeeze-and-Excitation Networks(SENet)是由自动驾驶公司Momenta在2017年公布的一种全新的图像识别结构,它通过对特征通道间的相关性进行建模,把重要的特征进行强化来提升准确率。这个结构是2017 ILSVR竞赛的冠军,top5的错误率达到了2.251%,比2016年的第一名还要低25%,可谓提升巨大。这么大的提升是怎么来的呢?今天就来介绍下这个冠军背后的原理细节。一、结构和原理1.1. SE Block图1:SE Block图1是SENet的Blo转载 2021-03-23 17:29:42 · 639 阅读 · 0 评论 -
深度可分离卷积(Depthwise Separable Convolution)
深度可分离卷积(Depthwise separable convolution)一些轻量级的网络,如mobilenet中,会有深度可分离卷积depthwise separable convolution,由depthwise(DW)和pointwise(PW)两个部分结合起来,用来提取特征feature map。相比常规的卷积操作,其参数数量和运算成本比较低。常规卷积运算假设输入层为一个大小为64×64像素、三通道彩色图片。经过一个包含4个Filter的卷积层,最终输出4个Feature Map转载 2021-03-23 14:42:24 · 1796 阅读 · 0 评论 -
深度学习之长短期记忆网络LSTM理解
转自博客http://colah.github.io/posts/2015-08-Understanding-LSTMs/,大致翻译了一下,大神讲的很好。RNN Networks人类不会每时每刻都开始思考。当你阅读这篇文章时,你会根据你对之前单词的理解来理解每个单词。你不会扔掉所有东西,然后再从头开始思考。你的思想有持久性。传统的神经网络无法做到这一点,这似乎是一个主要的缺点。例...翻译 2019-08-22 17:39:55 · 2087 阅读 · 0 评论 -
深度学习之RNN循环神经网络
最近在看RNN循环神经网络,但是网上的教程杂七杂八的太乱了,这里我将网上的教程大概整理一下,以供大家一起起学习。1、为什么需要RNN我们知道 对于传统神经网络,通过训练之后,给特定的输入就会得到期望的输出。但是对于传统的神经网络,前一个输入与后一个输入之间通常是没有联系的,并且其输出之间也是没有联系的。试想一下,如果我们要处理进行翻译一段文字,这时候将单个文字输入到神经网络里面,输...原创 2019-08-22 16:28:38 · 471 阅读 · 0 评论