自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Tsuinosora

一个专注灌水的崽

  • 博客(35)
  • 资源 (3)
  • 收藏
  • 关注

原创 Wav2vec2 论文阅读看到的一些问题

A1. Transformer在更长的序列上有更好的编码效果,例如论文也写Contextualized representations with Transformers。另一个因素在于对比学习本质上是区分相似性,让正样本之间更接近,让正负样本之间更远离,而不是类似CE的完全逼近。A2. 是联合训练的,在训练早期CodeBook是随机初始化。Q1. 为什么wav2vec依旧需要Transformer来做推理,而不直接使用VQ生成的内容?这里只是简单的思考一下论文的一些问题,不是论文解读。

2023-08-09 11:41:03 1113

原创 【FFMPEG】解决截取MP4视频的中间段时,截取完成后前几帧视频卡住,但是有声音的情况

解决截取MP4视频的中间段时,截取完成后前几帧视频卡住,但是有声音的情况

2022-08-16 22:04:16 2469 1

原创 【AD-NeRF】音频驱动人脸NeRF

任务目标:生成高质量的音频驱动的面部视频序列合成,实现音频到视觉人脸的跨模态映射。应用方向:数字人、聊天机器人、虚拟会议等针对这个任务,目前已经有了一些解决方案。早期的方案基于专业的建模师以及动作捕捉系统,近些年深度学习的发展演化出了一系列基于GAN的方案来实现audio2face的领域迁移。但是这类任务目标的核心难点在于如何把音频信号和脸部变形(表情+嘴唇)联系起来。因此,绝大多数方法使用了人脸的一些中间表示,这些中间表示通常例如一些显式建模的3D人脸.........

2022-08-12 15:04:47 3410 2

原创 【NeRF】原始论文解读

NeRF原始论文 简单阅读理解

2022-08-03 14:33:06 1789 1

原创 【OCR】文本检测方案 TextFuseNet解读

TextFuseNet: Scene Text Detection with Richer Fused Features🔗 PDF Link 🍺 Github Code一些总结,非作者文章内容:实质上是去通过文本检测中多级别的目标融合的方法来提升检测效果的,核心价值其实分两点来看提出了一种利用Mask-RCNN的流程以及多分枝的结构实现多层特征融合方案,从全局特征->词特征+字符特征来提升文字检测效果。性能优势非常非常明显,但是对应的推理速度相对较慢ResNet-50的backbone下

2022-02-25 14:42:10 2614

原创 【CVPR2021】OCR文本检测MOST解读

OCR 文本检测论文MOST阅读理解

2022-02-23 10:59:05 2681 4

原创 【论文解析】StyleGAN3 - Alias-Free Generative Adversarial Networks

StyleGAN3: Alias-Free Generative Adversarial Networks???? PDF Link ???? GitHub CodeSection 1 介绍由GAN生成的图像的分辨率和质量的改善使得图像越来越真实,被广泛的应用于图像编辑,风格领域转换以及视频生成。虽然已经发现了几种控制生成过程的方法,但合成过程的基本原理仍然半知半解。在现实世界中,不同尺度的细节往往是层次化的。例如,移动头部会导致鼻子移动,而鼻子上的皮肤毛孔也会随之移动。传统生成器的结构也是类似这

2021-10-30 14:16:15 5328 2

原创 PP-LCNet论文全文解析

PP-LCNet: A Lightweight CPU Convolutional Neural Network???? PDF Link ???? Github CodeSection 1 介绍随着模型参数和FLOPs的加大,模型越来越难以在基于ARM架构的移动端设备或者x86架构的CPU上取得较快的推理速度。虽然有许多优秀的移动端网络被设计出来,但是由于MKLDNN的限制,网络的推理加速效果并不理想。本文重新考虑了轻量级模型的构成,尤其是我们考虑了三个基础问题:在不增加网络延时的前提下,如

2021-10-22 17:21:47 2950 1

原创 OnnxRuntime 性能调优

OnnxRuntime 性能调优[文档](Tune performance - onnxruntime)的一些笔记:性能调优小工具 ONNX GO Live Tool这玩意儿有俩docker容器来实现支持,一个优化容器和一起模型转换容器。暂时具体不清楚原理,还没来得及看,后面试试。什么执行单元(Execution Provider, EP)能够提供最好的性能表现CPU版本的ONNX Runtime提供了完整的算子支持,因此只要编译过的模型基本都能成功运行。一个要注意的点是为了减少编译的二进制包能

2021-09-08 15:58:41 5502 8

原创 【CVPR2021】Multi-Stage Progressive Image Restoration 多阶段渐进式通用图像恢复

首发于jwxie,cnMulti-Stage Progressive Image Restoration???? PDF Link ???? Github CodeSection 1 介绍图像恢复是一个从低质量的图像恢复出高清图像的任务。典型的低质量因素有噪声,模糊,水滴噪声,雾噪声等。这是一个高度病态的问题,因为本质上对一张输入的低质量图像存在无限的可行解。为此,许多工作通过增加人工设计的图像先验信息,同时限制解空间的大小为自然图像来解决上述问题。但是设计这种先验本身就已经是一个很具有挑战性的任

2021-07-01 17:47:40 3244

原创 【论文阅读】CVPR 2021 论文摘要速览 【未完待续】

CVPR 2021 速览首发于 jwxie.cn文章目录CVPR 2021 速览DAP: Detection-Aware Pre-training with Weak Supervision摘要主要流程图主要结果展示Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection摘要主要流程图主要结果展示Scale-aware Automatic Augmentation for Object

2021-05-22 22:06:12 1339

原创 树莓派4B(RPI 4B) 编译NCNN - Ubuntu(x64)

在树莓派4b-Ubuntu上编译NCNN官方文档安装教程需要的一些环境gitg++cmakeprotocol buffer (protobuf) headers files and protobuf compilervulkan header files and loader libraryglslang(可选) opencv # 用于编译测试用例用以下命令安装以下一些依赖包:sudo apt install build-essential git cmake libprotobuf

2021-04-21 22:39:01 763

原创 Cython实现cpp和python的混合编程以及不同方法在速度和内存的实验性探索

首发于jwxie.cnCython 的一些小实验开头语这篇博客本质上是对Cython探索的一些记录,当然仅供周末空闲时间的一些娱乐。基础介绍这一段主要讲一下为什么我要做这么一个测试。主要原因是最近在工作中做了一些检测方面的内容,因为生产环境没有GPU,因此把所有模型都往CPU上挪了,但是除了模型部分的网络加速外,检测还有一些后处理比较费是时间,因此就想尝试一下是否可以对这一部分纯Python实现的内容进行加速。这里主要针对的部分是PriorBox的生成(对,你没有看错!不是NMS就是PriorB

2021-03-20 18:40:45 775 1

原创 【论文阅读】ViT: AN IMAGE IS WORTH 16X16 WORDS 用Transformer干图像分类

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE用Transformer干碎CNN????? PDF Link ???? Github CodeSection 1. IntroductionSelf-Attention在NLP里很火,例如Transformer。得益于计算效率以及可伸缩性,可以在训练出一个超过100B参数的巨大的模型,而且随着模型和数据集的增长,还没有出现性能饱和的现象。在CV领域

2021-01-23 17:59:37 4470

原创 RepVGG - 让VGG再次伟大!

RepVGG: Making VGG-style ConvNets Great Again???? PDF Link ???? Github CodeSection 1 介绍卷积网络最近成为了很多任务的主流解决方案。近期许多团队都开始专注更复杂、更精巧的网络结构设计如ResNet、DesNet等,甚至是使用NAS等自动结构搜索来进行网络设计。但是这类模型存在着一些缺陷:多分支的设计使得模型的实现落地和客制化变得困难,同时减慢了推理时间,并增加了内存占用。一些流行的操作虽然可以获得不错的准确率,

2021-01-16 18:57:04 1392 1

原创 【NeurIPS2020】【NVIDIA】用有限的数据训练GAN 【论文翻译+解读】

Training Generative Adversarial Networks with Limited Data???? PDF Link ???? Github CodeSection 1. Introduction目前来说想要训练一个高质量的GAN需要的数据量是非常大的,尽管网络上有看似无穷无尽的图像数据可以获取,但是大多数由于客观类别、图像质量、地址位置、时间段、隐私和版权等各种问题,在一个问题上训练一个modern、high-quality的GAN模型存在较大的困难。传统方案是使用数据

2020-12-17 09:47:00 2244 1

原创 【pSp】Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation【论文简单解读】

文章首发于jwxie.cnEncoding in Style: a StyleGAN Encoder for Image-to-Image Translation???? PDF Link ???? Github CodeSection 1 介绍近些日子,GAN在图像生成领域(尤其是人脸图像)取得了较大的进展。比如说StyleGAN就通过MLP实现了一个从离散的潜空间到人脸图像的可控、可编辑的人脸生成器。近些日子也又不少人尝试去进一步的探索了人脸编辑,但是很多情况下,我们需要把图像转换为潜空间里

2020-11-05 19:51:58 5173 1

原创 SRFlow 超分SOTA? PULSE的升级版?

首发于jwxie.cnSRFlow: Learning the Super-Resolution Space with Normalizing Flow???? PDF Link ???? Github ProjectSection 0 前置介绍(俺写的,不是论文作者写的)一些前置的有关于Flow的知识点:讲到Flow、Glow实际上还得从VAE和GAN说起。针对VAE和GAN我们也比较熟悉了,属于生成模型本质上就是给定一批数据,我们用这批数据来拟合出尽可能真实的数据分布。这里我们直接从连续变

2020-10-03 11:52:40 2679 15

原创 关于pytorch的BN,在训练的模型上增添新模块[只训练新模块]

关于Pytorch的BN目前在做一些人脸方面的内容,场景是在一个训练完成的模型上加一些功能(要是模型也能支持装饰器就好了????)。假定现在已经有了一个训练好的模型A\mathbf{A}A(包含了BN和Dropout层),现在在A\mathbf{A}A的基础上额外添加了一些层LLL,需要对这些新添加的层进行训练。那么"常规"的做法就如下:model = build_new_model() # add requires_grad=False to those untrained parameters

2020-09-29 10:01:19 839

原创 DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译

DFDNet 论文翻译翻译工具: DeepLp.s. 用word写的(复制粘贴…????),公式直接用的word的公式编辑器,csdn又不支持直接转换,我把word共享(link)出来了,想要良好的阅读体验看word会更好一些。Introduction盲目的人脸修复(或称人脸幻觉)旨在从真实的低质量(LQ)图像恢复到高质量(HQ)图像的真实细节,而不知道退化类型或参数。与单一的图像恢复任务相比,如图像超解像[9,36,46]、去噪[42,43]和去模糊[22,23],盲图恢复面临更多的挑战,但在恢复

2020-09-25 14:38:26 4046 3

原创 TensorRT动态尺寸输入

TensorRT动态尺寸输入首先可以看一下官方TensorRT文档里的对限制性的一些描述以及一些Profile的一些描述在目前7.0的文档里TensorRT是支持动态输入的,这个章节里面还是有不少东西可以看看的,明确的给了API怎么用,Profile该怎么写。Dynamic shapes are the ability to defer specifying some or all tensor dimensions until runtime. Dynamic shapes can be use

2020-09-19 10:10:45 6012 1

原创 ONNX动态输入尺寸的问题【多输出/多输入】【pytorch/onnx/onnxruntime】

ONNX模型导出动态尺寸的问题具体可以看一下这个回答This is a very good question and it’s a topic we have been discussing repeatedly recently. The answer has three parts:whether onnx supports representing models with dynamic shapewhether frontends (like pytorch) supports expo

2020-09-19 09:48:12 15867 17

原创 CVPR2020-人脸识别一些论文解读摘要

人脸识别方向一些论文快查Group FaceData Uncertainty Learning in Face RecognitionCurricularFaceGroup Face 【解决人脸识别backbone的问题】尽管损失函数得到了发展,但通用网络,不是为人脸识别而设计的网络,在有效训练网络以识别大量的人身份方面还存在困难。不像分类等常见问题,在评估阶段,人脸识别模型会遇到不包含在训练集的新身份。因此,该模型需要在训练集中嵌入近100k个身份,和考虑大量未知的身份。然而,现有的方法大多

2020-09-04 15:41:56 3274 6

原创 弄个免费的https玩玩 (阿里云-docker+nginx:alpine+ssl=>https)

首发于: jwxie.cn弄个免费的https玩玩(本博客站)上班有几天了,突然接到电话说阿里云的ECS可以有免费的ssl证书可以领,我寻思当时看的时候不是收费的嘛(好像还老贵了,贫穷????)。抽空去看了一眼,原来门道有点西小多,多点几下就能看到免费的了。工具/软件阿里云SSLTerminal步骤老规矩去弄个ECS+域名呗,不然弄个锤子https。然后去阿里云的SSL,官网就再上面。正常打开的话,看到的可能不太一样(没错我指的是价格)。修改一下选项,然后就免费了… ????选择单

2020-08-28 15:06:55 317

原创 PPYOLO 简单的解读

首发于:jwxie.cnPP-YOLO: An Effective and Efficient Implementation of Object Detector???? PDF Link ???? Github CodeYOLO5还没来得及看,又来一个PPYOLO,有点多… ????Section 1 介绍开幕雷击,你们都是渣渣~随着深度学习的进步以及深度卷积网络的发展,对象检测(Object Detection)已经取得了比较大的进展,尤其是单阶段的OD。本文在YOLO3的基础上魔改,

2020-08-25 13:47:51 5087 8

原创 White Box Cartoonization 人工智能动画化0.0

首发于: jwxie.cnLearning to Cartoonize Using White-box Cartoon Representations???? PDF Link ???? Github Code本以为是动画化的下一版是AnimeGAN2(虽然前两天看也发布了代码了 0.0),结果是这个… ????Section 1 介绍实际上现实下的动画风格多种多样,针对黑盒模型来说困难重重,对于多种多样的实际需求,单纯地更换数据集本质上并不能取得很好地效果。例如CartoonGAN提出了edg

2020-08-24 10:19:21 931 2

原创 StyleGAN2 替换掉PULSE的欧洲脸和噪声

Analyzing and Improving the Image Quality of StyleGAN???? PDF Link ???? Github Code以为第一代就是巅峰了?Section 1 介绍StyleGAN在高分辨率图像的生成上有着巨大进步,但是依旧还存在着许许多多的小问题。首先第一个就是许多人发现的伪影,这里明确的分为两种不同的伪影。第一种是水滴状的伪影,第二种是由于Progressive growing所产生的。针对这两种伪影,文章分别在第二章和第四章进行了详细的描述。

2020-08-24 10:18:08 446 4

原创 PULSE (人种转换器~)

首发于:jwxie.cnPULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models???? PDF Link ???? Github Code人种变换器?? ????Section 1 介绍效果图(很8错啊~):贡献:提出了一个新的图像超分辨率范例。传统的方法是使用“重建”的方式来解决超分这个病态的问题,但实际上,这些方法都是通过平均化可能的答案(solution)来实

2020-08-24 10:16:11 1542 5

原创 一些在论文阅读过程中看到的小知识

首发于:jwxie.cn一些在论文阅读过程中看到的小知识Making Convolutional Networks Shift-Invariant Again???? PDF Link ???? Github Code问题DNN的平移不变性实际上是MaxPooling带来的。实际上Maxplooing最大程度保留了高频特征,同时减少了网络特征的冗余(尤其是针对“有没有”和“是不是”的问题而言)。因此,这样会导致最终物体无论在图片的哪一个位置都可以被明确的保留下来。但是实验发现,Maxpooli

2020-08-21 09:50:59 171

原创 ResNeSt 一个简单的解读

首发于:jwxie.cnResNeSt: Split-Attention Networks???? PDF Link ???? Github CodeAttention是个好东西。????Section 1 介绍分类网络结构是其他大多数任务的网络设计的基础。基于骨架网络,许多其他任务使用了如金字塔模块或者long-range连接,又或者是跨通道的特征图注意力机制来提升特定任务下的模型性能。这就引出了一个问题:能否可以创建一个全能的网络,提升特征提取过程的性能,从而实现对所有任务的优化。近期许

2020-08-21 09:49:07 1099

原创 YOLOv4 tricks的集合

首发于:jwxie.cnOptimal Speed and Accuracy of Object Detection???? PDF Link ???? Github CodeYou Only Look Once 系列续杯????Section 1 介绍主要贡献如下:发布了一个超高效但是强大的检测模型,使得所有人都可以使用1080Ti或者2080Ti训练模型。验证了BoF和BoS方法在训练时候的作用。修改了SOTA的方法,让CBM,PAN,SAM更高效,更适合单GPU训练。Secti

2020-08-21 09:48:11 264

原创 Network Design Spaces

首发于:jwxie.cnOn Network Design Spaces for Visual Recognition???? PDF Link ???? Github CodeRegNet前篇!????Section 1 简介目前,在Visual Recognition领域里,网络结构搜索的一系列工作就类似在进行着“随机梯度下降”,每次提出新的模型结构都像是在无限维度的解空间里朝着“最优解”方向走了一个step。(这话讲得真没错啊!!!????)。既然类似于GD,那么对应着我们要朝着最优(时

2020-08-21 09:47:19 235

原创 GhostNet 越来越多的小结构修改

首发于:jwxie.cnGhostNet - More Features from Cheap Operations???? PDF Link ???? Github Code超越了MobileNetv3的轻量型网路实现方式。个人前言前几天论文预答辩的时候停了停大实验室里其他同学的研究,有一部分做网络压缩的,当时有个评委提了个问题在如今MobileNet系列以及ShuffleNet等轻量级网络不断发展的前提下,网络压缩的发展方向在哪?当时没仔细想,现在回过头来一想的确是个有意思的问题。

2020-08-21 09:45:59 1178

原创 AnimeGAN a novel lightweight GAN for photo animation

首发于:jwxie.cnAnimeGAN a novel lightweight GAN for photo animation???? PDF Link ???? Github Code没研究过GAN,Github trends上瞅着个这个好玩的,跑个demo顺便瞅瞅论文,看有啥有意思的东西。p.s. Date 20.07.22 GitHub好像近期有更新了,有AnimeGAN+了…Section 1 简介上来看到一句,咋这么像我们老板说的…能说出这话说明这工作在当前来看的确没啥用了??

2020-08-21 09:44:57 2386 4

原创 使用阿里云OSS搭建图床

首发于:jwxie.cn使用阿里云OSS搭建图床临近毕业蹭了一蹭阿里云的学生机,送了半年的OSS,本想用来弄个小网盘,实在太小(40G),想来blog要用到图床,就索性用OSS自己摸一个出来。工具/软件阿里云OSSPicGo步骤氪金想办法弄个OSS????。这个便宜的很,40G一年不打折1年12RMB,不过基本点进去都是9RMB(乱七八糟折扣)。我在买阿里云学生机的时候送了半年,但是送完之后一直不知道咋用,学校预答辩结束有点时间开始玩才发现,就算送你了(阿里云控制台资源包里能看到)

2020-08-21 09:43:04 820

网络安全数据集-IDS2018-第二部分(共2部分)

网络安全数据集-IDS2018-第二部分(共2部分)

2021-11-09

网络安全数据集-IDS2018-第一部分

网络安全数据集-IDS2018-第一部分

2021-11-09

DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译

DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文的全文翻译,用的DeepL作为翻译工具。整体上看上去还是蛮通顺的,基本有一些基础的,看这个翻译读一遍就能看明白论文了。

2020-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除