自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 收藏
  • 关注

原创 latex-minted高亮代码配置

本文展示如何利用minted来高亮显示代码。

2022-09-04 16:32:24 1616 1

原创 安装mmcv-full

mmcv-full安装

2022-08-24 21:39:41 20737 10

原创 Towards Real-Time Multi-Object Tracking(JDE)

JDE

2022-07-27 13:56:43 2776

原创 紧凑的深度特征表示

压缩特征编码

2022-06-17 17:28:19 1435

原创 X264编码信息输出到txt

结尾加上 2>>D:/DATA/TestVideo/log.txt完整命令:E:\毕设结果\code\x264\帧间没有intra\x264-master\build\x264.exe --preset medium --input-res 250x362 --input-depth 8 --fps 30 "D:\DATA\TestVideo\ori_yuv\Set14\comic.yuv" --qp 35 --ipratio=1 --pbratio=1 -o "D:\DATA\Te

2022-05-05 18:30:18 267

原创 sh: source not found

错误解决方法:将source $cfg_fname换成 . ./$cfg_fname两个.之间是由空格的。stackoverflow

2022-04-19 16:09:01 760

原创 OpenImages V6下载

新工具:Fiftyone网址可以采用colab运行程序,点击即可:完整代码:!pip install opencv-python-headless==4.5.4.60!pip install fiftyone!pip install tensorflow torch torchvision umap-learn!pip install ipywidgets>=7.5import fiftyone as foimport fiftyone.zoo as foz# 连接谷歌云盘

2022-04-14 09:50:27 2117 1

原创 Install Tensorflow Object Detection API-Linux

官方网址1. Downloading the TensorFlow Model Garden2. Protobuf Installation/Compilation注意这里,我一开始下载的protos 3.20版本,在执行到最后一步时,出现了下面问题:Traceback (most recent call last): File "object_detection/builders/model_builder_tf2_test.py", line 24, in <module>

2022-04-13 23:17:07 758

原创 2021 Image Compression with Recurrent Neural Network and Generalized Divisive Normalization

概要该文提出了两种有效的新编解码块:采用卷积层和Generalized Divisive Normalization(GDN)的分析(analysis)和合成块(synthesis)。该文的网络利用pixel RNN方法进行量化。此外,为了改进整个网络,我们使用LSTM细胞对残差图像进行编码,以减少不必要的信息。1. 网络结构下图给出了两块图像压缩的总体体系结构:每个输入(image patch)首先被传递到分析(analysis)编码器块,以丰富图像表示。类似地,合成(synthesis)-解码

2022-04-05 19:51:25 4067

原创 2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding

概述帧间预测是混合视频编码框架的关键组成部分,旨在利用视频序列中的时间冗余,提高编码性能。在相互预测过程中,通常使用运动估计和运动补偿从参考图像中得到一个预测块。为了提高预测的编码性能,该文提出了一种基于神经网络的预测增强(NNIP)。NNIP由残差估计网络、组合网络和深度细化网络三种网络组成。1. Framework of NNIPNNIP的输入为当前块和预测块的空间相邻L形,以及预测块,分别用LCL_CLC​、LPL_PLP​和PPP表示,如图2所示。预测块是在传统的内部预测中使用运动补偿来生成

2022-04-04 17:13:20 1489

原创 2020 Deep Video Prediction Network-Based Inter-Frame Coding in HEVC

概述该文提出了一种基于卷积神经网络(CNN)的视频编码技术,利用视频预测网络(VPN)来支持高效视频编码(HEVC)中的增强运动预测。具体来说,其设计了一个CNNVPN来生成一个虚拟参考帧(VRF),并使用先前编码的帧进行合成,以提高编码效率。所提出的VPN使用两种级联的子VPN体系结构来预测同一时间实例下的当前帧。VRF预测结果相比传统的参考帧具有更高的时间相关性,因此它可以取代传统的参考帧。分类属于混合编码结构。结构1. Model architecture所提出的CNN-VPN旨在准确地预测当

2022-04-04 15:36:26 1366

原创 2017-SpyNet

1. 概述2. Spatial Pyramid Network2.1 Spatial Sampling设d(⋅)d(\cdot)d(⋅)为降采样函数,它将一个m×nm×nm×n图像III抽取到大小为m2×n2\frac{m}{2}×\frac{n}{2}2m​×2n​的相应图像d(I)。设u(⋅)u(\cdot)u(⋅)是对图像进行上采样的反向操作。这些操作符还用于对光流场VVV的水平和垂直分量进行下采样和上采样。我们还定义了一个warping operator w(I,V)w(I,V)w(I,V),

2022-04-01 10:07:26 4178

原创 Improving Compression Artifact Reduction via End-to-End Learning of Side Information-2020

概要:该文提出通过传输side信息来减弱基于神经网络压缩方法的伪影。6.1 应用场景:该文的工作是初步的探索端到端学习边信息的压缩,为得到增强的解码信息提供了借鉴。6.2 关键设计思路:边信息是由编码器通过分析原始图像和压缩图像之间的差别而获得的伪影描述符。在解码器中,接收到的描述符作为后处理神经网络的附加输入。同时为了降低传输开销,在速率失真约束下,通过端到端学习对整个模型进行了联合优化。模型架构6.2.1 Artifact Decriptor Extraction下图为所设计的Arti

2022-03-30 22:17:36 1762

原创 IMAGE CODING FOR MACHINES: AN END-TO-END LEARNED APPROACH 2021

1.1 摘要在本文中,我们提出了一种基于神经网络(NN)的、基于端到端学习的机器的图像编解码器。特别地,我们提出了一套训练策略,以解决平衡竞争损失函数的微妙问题,如计算机视觉任务损失、图像失真损失和速率损失。我们的实验结果表明,我们的基于nn的编解码器在目标检测和实例分割任务上优于最先进的通用视频编码(VVC)标准,分别实现了-37.87%和-32.90%的bd率增益。以下游任务为主导的编解码系统1.2 模型我们提出了一种针对任务性能(ICM)系统的图像编码,而不是像素域保真度。我们的编解码器包括一

2022-03-30 14:56:57 2981

原创 Generative Adversarial Networks for Extreme Learned Image Compression-2019

1. 2019然而,深度压缩系统通常针对传统的失真指标进行了优化,如峰值信噪比(PSNR)或多尺度结构相似度(MS-SSIM)[45]。对于非常低的比特率(低于每像素0.1位(bpp)),保留完整的图像内容变得不可能,这些失真指标失去了意义,因为它们倾向于像素级保留局部(高熵)结构,而不是保留纹理和全局结构。概要在本文中,我们提出了一个原则的全分辨率GAN压缩框架,并使用它来实现一个极端的图像压缩系统(目标比特率低于0.1bpp)。此外,与之前的工作相比,我们提供了在全分辨率图像压缩的背景下,这种框架

2022-03-18 10:23:27 490

原创 网络中量化操作(1)

1. Generative Adversarial Networks for Extreme Learned Image Compression 2019量化操作:# [-2., -1., 0., 1., 2.]centers = tf.cast(tf.range(-2,3), tf.float32)# Partition W into the Voronoi tesellation over the centersw_stack = tf.stack([w for _ in range(L)],

2022-03-18 10:22:32 511 1

原创 2017EDSR

概要该文开发了一种增强的深度超分辨率网络(EDSR),其性能超过了目前最先进的SR方法。其的模型的显著性能改进是通过去除传统残差网络中不必要的模块(Batch Normalization)进行优化。在稳定训练(Residual Scaling)过程的同时,通过扩大模型尺寸进一步提高了性能。该文还提出了一种新的多尺度深度超分辨率系统(MDSR)和训练方法,该方法可以在单一模型中重建不同放大因子的高分辨率图像。1. 背景最近,深度神经网络在SR问题中在峰值信号调比(PSNR)方面提供了显著的性能。然而,这

2022-03-17 00:32:54 4061

原创 SwinUNet2022

1. 概述本文提出了一种以SwinSwinSwin变压器层为基本块的SUNetSUNetSUNet恢复模型,并将其应用于UNetUNetUNet架构中进行图像去噪。2. 背景图像恢复是一种重要的低级图像处理方法,可以提高其在目标检测、图像分割和图像分类等高级视觉任务中的性能。在一般的恢复任务中,一个被损坏的图像Y可以表示为:Y=D(X)+n(1)Y=D(X)+n \tag 1Y=D(X)+n(1)其中XXX是一个干净的图像,D(⋅)D(\cdot)D(⋅)表示退化函数,nnn表示加性噪声。一些

2022-03-16 18:51:36 9335 2

原创 MS-SSIM

1. 概要该文提出了一种多尺度结构相似度方法,该方法在考虑观看条件的变化方面比以往的单尺度方法具有更大的灵活性。该文展示了一种图像合成方法来校准参数,以定义不同尺度的相对重要性。2. 结构结构相似性为图像质量评估[3]-[6]问题提供了一种替代和补充的方法。它基于一个自上而下的假设,即HVS非常适合于从场景中提取结构信息,因此结构相似性的度量应该是一个很好的感知图像质量的近似值。研究表明,该方法的一个简单实现,即结构相似性(SSIM)索引[5],可以优于最先进的感知图像质量指标。然而,在[5]中引入的

2022-03-16 00:22:17 12233 3

原创 linux安装tensoflow

1.安装Anaconda第一条:wget https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh第二条:bash Anaconda3-2020.11-Linux-x86_64.sh第三条:source ~/.bashrc2. 创建虚拟环境然后创建个虚拟环境(进入虚拟环境),conda env list 或 conda info -e 查看当前存在哪些虚拟环境创建新的环境:conda create -n env_f

2022-03-14 22:01:31 3912

原创 linux安装pytorch

1.安装Anaconda第一条:wget https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh第二条:bash Anaconda3-2020.11-Linux-x86_64.sh第三条:source ~/.bashrc2. 创建虚拟环境然后创建个虚拟环境(进入虚拟环境),conda env list 或 conda info -e 查看当前存在哪些虚拟环境创建新的环境:conda create -n env_f

2022-03-14 22:00:58 6940

原创 2019_Generative Adversarial Networks for Extreme Learned Image Compression

2019然而,深度压缩系统通常针对传统的失真指标进行了优化,如峰值信噪比(PSNR)或多尺度结构相似度(MS-SSIM)。对于非常低的比特率(低于每像素0.1位(bpp)),保留完整的图像内容变得不可能,这些失真指标失去了意义,因为它们倾向于像素级保留局部(高熵)结构,而不是保留纹理和全局结构。概要在本文中,我们提出了一个原则的全分辨率GAN压缩框架,并使用它来实现一个极端的图像压缩系统(目标比特率低于0.1bpp)。此外,与之前的工作相比,我们提供了在全分辨率图像压缩的背景下,这种框架的第一个彻底的

2022-03-13 23:34:38 3877

原创 2016:Variable rate image compression with recurrent neural networks

概要​ 该文提出了一个可变速率图像压缩的通用框架和一种基于卷积和反卷积LSTM递归网络的新架构。(不需要针对每个速率单独进行训练)应用场景适用于低分辨率图像的压缩及可变码率。1. Variable Rate Compression ArchitectureEncoder: function E. 以一个图像补丁作为输入,并生成一个编码后的vector(encoded representation)Binaryization: function B. 由一个二值化函数B来处理编码后的vec

2022-03-13 14:52:42 460 2

原创 linux安装x264

一. X264源码下载x264源码下载地址:https://www.videolan.org/developers/x264.html解压tar jxvf x264-master.tar.bz2配置编译选项./configure --prefix=/work/Users/liujiawang/download/install/x264出现报错:二. 安装nasm2.14版本的下载地址:http://www.nasm.us/pub/nasm/releasebuilds/2.14

2022-03-13 14:28:19 2310 2

原创 Ubuntu安装ffmpeg

一、Ubuntu linux下安装ffmpeg1、下载解压wget http://www.ffmpeg.org/releases/ffmpeg-3.1.tar.gztar -zxvf ffmpeg-3.1.tar.gz如果wget访问不到网址,可以先用谷歌浏览器下载,再安装2、 进入解压后目录,输入如下命令/usr/local/ffmpeg为自己指定的安装目录cd ffmpeg-3.1./configure --prefix=/usr/local/ffmpegmakemake in

2022-03-13 13:46:30 2439

原创 基于RNN的可变速率图像压缩

概要​ 该文提出了一个可变速率图像压缩的通用框架和一种基于卷积和反卷积LSTM递归网络的新架构。(不需要针对每个速率单独进行训练)1. Variable Rate Compression ArchitectureEncoder: function E. 以一个图像补丁作为输入,并生成一个编码后的vector(encoded representation)Binaryization: function B. 由一个二值化函数B来处理编码后的vectorDecoder: fuction D.

2022-03-11 13:10:44 1581

原创 breakpoint()

breakpoint()使用小编在调用python文件时,遇到了这个错误。经过检查,发现小编需要的两个文件夹图片名字是不一致的。比如低分辨率中为0172.png,高分辨率中为0172x4.png。在出现错误的util.py中的239行设置断点:可见接下来要运行的代码为:assert input_name in input_paths势必会出现问题。有两种解决办法:一种是更改文件夹下图片的名字,即0172x4.png更改为0172.png另外一种就是,更改代码,将代码中获取对应图片0

2022-03-07 22:35:31 714

原创 SWinIR概述

1.概要图像恢复是一个长期存在的低水平视觉问题,它旨在从低质量的图像(例如,缩小比例、有噪声和压缩的图像)中恢复高质量的图像。该文提出了一种基于Swin变换的强基线模型SwinIR。SwinIR由浅层特征提取、深度特征提取和高质量的图像重建三部分组成。特别地,深度特征提取模块由几个残余的Swin变压器块(RSTB)组成,每个块都有几个Swin变压器层和一个残余连接。该文对三个具有代表性的任务进行了实验:图像超分辨率(包括经典、轻量级和真实世界的图像超分辨率)、图像去噪(包括灰度和彩色图像去噪)和JPEG压

2022-03-01 23:52:55 9153 5

原创 SRResNet概要

1. 摘要尽管使用更快、更深的卷积神经网络的单图像超分辨率在准确性和速度上取得了突破,但一个核心问题仍在很大程度上未得到解决:当我们对较大的升级因子进行超分辨率时,我们如何恢复更精细的纹理细节?基于优化的超分辨率方法的行为主要是由目标函数的选择所驱动的。最近的工作主要集中在最小化均方重建误差上。由此得到的估计具有很高的峰值信噪比,但它们往往缺乏高频细节,而且在感知上并不令人满意,因为它们无法匹配在更高分辨率下的预期保真度。在本文中,我们提出了SRGANSRGANSRGAN,一种用于图像超分辨率(SR)的生

2022-02-23 00:04:00 11553

原创 Spatial Pyramid Pooling

1. 摘要现有的深度卷积神经网络(CNNs)需要一个固定大小的(例如,224×224)的输入图像。这个要求是“人工的”,可能会降低对任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了另一种池化策略,即“空间金字塔池化”,以消除上述需求。新的网络结构,称为SPP-net,可以生成一个固定长度的表示,而不管图像的大小/规模。金字塔池对对象变形也具有鲁棒性。有了这些优点,SPP-net一般应该改进所有基于cnn的图像分类方法。2. 介绍我们正在目睹我们的视觉社区的一个快速、革命性的变化,

2022-02-06 11:28:24 2803

原创 PReLu

1. 摘要在ReLuReLuReLu的基础上作者提出了PReLuPReLuPReLu,在几乎没有增加额外参数的前提下既可以提升模型的拟合能力,又能减小过拟合风险。针对的ReLu/PReLuReLu/PReLuReLu/PReLu矫正非线性,作者设计了一个鲁棒的的参数初始化方法。2. 介绍在过去几年,随着更强大网络模型的构建和有效防止过拟合策略的设计,我们在视觉识别任务上取得了长足的进步。一方面,由于网络复杂性的增加(比如增加深度、扩大宽度)、小步长的使用、新的激活函数和更成熟的网络层设计,神经网络变

2022-02-04 17:15:22 6135

原创 预训练模型一:ELMO

词向量-ELMo介绍Deep contextualized word representations获得了NAACL 2018的outstanding paper award,其方法有很大的启发意义,本文则是对其做了一个简要梳理。Motivation预训练的word representation在NLP任务中表现出了很好的性能,已经是很多NLP任务不可或缺的一部分,论文作者认为一个好的word representation需要能建模以下两部分信息:单词的特征,如语义,语法单词在不同语境下的变化

2022-02-02 23:06:47 2264

原创 TSM: Temporal Shift Module for Effificient Video Understanding

1. 摘要视频流的爆炸性增长给在高精度和低计算成本下执行视频理解带来了挑战。传统的二维神经网络计算成本很低,但不能捕获时间关系;基于3DCNN的方法可以获得良好的性能,但计算量密集,部署成本高昂。该文提出了一种通用、高效的时移模块(TSM)。具体来说,它可以达到3DCNN的性能,但又保持了2DCNN的复杂性。TSM沿着时间维度移动部分通道;从而促进了相邻帧之间的信息交换。它可以插入到二维cnn中,以实现零计算和零参数的时间建模。2. 介绍硬件高效的视频理解是迈向现实世界部署的重要一步,无论是在云上还是

2022-02-02 20:31:26 1070

原创 Accurate Image Super-Resolution Using Very Deep Convolutional Networks(VDSR)

摘要该方法使用了一个非常深的卷积网络,灵感来自于Imagenet分类。该论文发现,网络深度的增加显示了精度的显著提高。最终的模型使用了20个权重层。通过在深度网络结构中多次级联小滤波器,有效地利用了大图像区域上的上下文信息。然而,在非常深的网络中,收敛速度成为训练过程中的一个关键问题。该文提出了一个简单而有效的训练程序,只学习残差,并使用极高的学习率(比SRCNN高10410^4104倍,SRCNN通过可调梯度剪辑)。1.介绍虽然SRCNN成功地将深度学习技术引入了超分辨率(SR)问题,但发现其局限性

2022-01-15 09:12:41 629

原创 matlab与python对h5py文件读取顺序

matlab与python对于同一个h5py文件的读取顺序相反。诸如对train.h5。matlabdata=h5read('train.h5','/data');label=h5read('train.h5','/label');size(data)size(label)结果:ans = 41 41 1 1000“/data"与”/label"为h5py中的两个set的名称。pythonhf = h5py.File(

2022-01-15 09:04:27 1176

原创 关于l2范数正则化与高斯先验问题

前言我们展示了如何用于分类的正则化可以从MDL的角度看作是一个高斯先验的权重。我们考虑了传输分类标签的问题;我们选择了非常精确的逻辑回归作为模型类,其中我们为每个特征指定了一个权重。这是不现实的,因为任何这样的模型的编码长度都是无限的,但如果我们对权值使用高斯先验并忽略常数因子,我们发现编码长度目标完全匹配的逻辑回归与l2范数正则化惩罚。通过这种理解,我们可以看到折衷参数是高斯先验的方差。它还描述了改进正则化的步骤——降低分辨率和特征选择都可以用来减少编码长度。1. 问题描述设(x1,……,xn)(x

2022-01-13 11:38:25 873

原创 AdderSR

1. 摘要该文利用加法器神经网络(AdderNets)研究了单幅图像的超分辨率问题。与卷积神经网络相比,AdderNets利用加法来计算输出特征,从而避免了传统乘法的大量能耗。然而,由于计算范式的不同,很难将addernet在大规模图像分类上的成功直接继承到图像超分辨率任务中。具体来说,加法器操作不能很容易地学习身份映射,而这是图像处理任务的关键。此外,AdderNets还不能保证高通滤波器的功能。为此,该文深入分析了加法器操作与身份映射和插入快捷方式之间的关系,以提高使用加法器网络的SR模型的性能。然后

2022-01-12 23:27:18 1558

原创 AdderNet

简要与简单的加法运算相比,乘法运算具有更高的计算复杂度。深度神经网络中广泛使用的卷积正好是来度量输入特征和卷积滤波器之间的相似性,这涉及浮点值之间的大量乘法。现在作者提出了加法网络(AdderNets)来交换深度神经网络中的这些大规模乘法,特别是卷积神经网络(CNNs),以获得更简易的加法以降低计算成本。在加法器网中,作者以滤波器与输入特征之间的L1范数距离作为输出响应。分析了这种新的相似性度量对神经网络优化的影响。为了获得更好的性能,通过研究全精度梯度开发了一种特殊的反向传播方法。然后,作者还提出了

2022-01-12 11:02:19 452

原创 SRCNN

1. introduction考虑了一个卷积神经网络,它可以直接学习低分辨率和高分辨率图像之间的端到端映射。我们的方法与现有的基于外部实例的外部方法有根本的不同,因为我们的方法没有明确地学习字典[41]、[49]、[50]或流形[2]、[4]。这些都是通过隐藏层隐式地实现的。此外,斑块的提取和聚合也被表示为卷积层,因此也参与了优化。在我们的方法中,整个SR管道完全通过学习获得,很少进行预/后处理。所提出的模型被命名为超分辨率卷积神经网络(SRCNN)1。所提出的SRCNN有几个吸引人的特性。首先,它的结

2022-01-10 09:37:06 4139

原创 感知特性评价指标SSIM

1. Abstract传统上,评估感知图像质量的客观方法试图利用人类视觉系统的各种已知属性来量化扭曲图像和参考图像之间的误差的可见性(差异)。在假设人类视觉感知高度适应于从场景中提取结构信息的情况下,我们引入了另一种基于结构信息退化的质量评估补充框架。作为这个概念的一个具体例子,我们开发了一个结构相似性指数,并通过一组直观的例子来展示它的前景,以及在一个用JPEG和JPEG2000压缩的图像数据库上与主观评分和最先进的目标方法进行比较。2. INTRODUCTION数字图像在采集、处理、压缩、存储、传

2022-01-06 12:10:29 3473

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除