门被核桃夹了还能补脑嘛-CSDN博客

原创 Wav2vec2 论文阅读看到的一些问题

A1. Transformer在更长的序列上有更好的编码效果，例如论文也写Contextualized representations with Transformers。另一个因素在于对比学习本质上是区分相似性，让正样本之间更接近，让正负样本之间更远离，而不是类似CE的完全逼近。A2. 是联合训练的，在训练早期CodeBook是随机初始化。Q1. 为什么wav2vec依旧需要Transformer来做推理，而不直接使用VQ生成的内容？这里只是简单的思考一下论文的一些问题，不是论文解读。

2023-08-09 11:41:03 1113

原创【FFMPEG】解决截取MP4视频的中间段时，截取完成后前几帧视频卡住，但是有声音的情况

解决截取MP4视频的中间段时，截取完成后前几帧视频卡住，但是有声音的情况

2022-08-16 22:04:16 2469 1

原创【AD-NeRF】音频驱动人脸NeRF

任务目标：生成高质量的音频驱动的面部视频序列合成，实现音频到视觉人脸的跨模态映射。应用方向：数字人、聊天机器人、虚拟会议等针对这个任务，目前已经有了一些解决方案。早期的方案基于专业的建模师以及动作捕捉系统，近些年深度学习的发展演化出了一系列基于GAN的方案来实现audio2face的领域迁移。但是这类任务目标的核心难点在于如何把音频信号和脸部变形（表情+嘴唇）联系起来。因此，绝大多数方法使用了人脸的一些中间表示，这些中间表示通常例如一些显式建模的3D人脸.........

2022-08-12 15:04:47 3410 2

原创【NeRF】原始论文解读

NeRF原始论文简单阅读理解

2022-08-03 14:33:06 1789 1

原创【OCR】文本检测方案 TextFuseNet解读

TextFuseNet: Scene Text Detection with Richer Fused Features🔗 PDF Link 🍺 Github Code一些总结，非作者文章内容：实质上是去通过文本检测中多级别的目标融合的方法来提升检测效果的，核心价值其实分两点来看提出了一种利用Mask-RCNN的流程以及多分枝的结构实现多层特征融合方案，从全局特征->词特征+字符特征来提升文字检测效果。性能优势非常非常明显，但是对应的推理速度相对较慢ResNet-50的backbone下

2022-02-25 14:42:10 2614

原创【CVPR2021】OCR文本检测MOST解读

OCR 文本检测论文MOST阅读理解

2022-02-23 10:59:05 2681 4

原创【论文解析】StyleGAN3 - Alias-Free Generative Adversarial Networks

StyleGAN3: Alias-Free Generative Adversarial Networks???? PDF Link ???? GitHub CodeSection 1 介绍由GAN生成的图像的分辨率和质量的改善使得图像越来越真实，被广泛的应用于图像编辑，风格领域转换以及视频生成。虽然已经发现了几种控制生成过程的方法，但合成过程的基本原理仍然半知半解。在现实世界中，不同尺度的细节往往是层次化的。例如，移动头部会导致鼻子移动，而鼻子上的皮肤毛孔也会随之移动。传统生成器的结构也是类似这

2021-10-30 14:16:15 5328 2

原创 PP-LCNet论文全文解析

PP-LCNet: A Lightweight CPU Convolutional Neural Network???? PDF Link ???? Github CodeSection 1 介绍随着模型参数和FLOPs的加大，模型越来越难以在基于ARM架构的移动端设备或者x86架构的CPU上取得较快的推理速度。虽然有许多优秀的移动端网络被设计出来，但是由于MKLDNN的限制，网络的推理加速效果并不理想。本文重新考虑了轻量级模型的构成，尤其是我们考虑了三个基础问题：在不增加网络延时的前提下，如

2021-10-22 17:21:47 2950 1

原创 OnnxRuntime 性能调优

OnnxRuntime 性能调优[文档](Tune performance - onnxruntime)的一些笔记：性能调优小工具 ONNX GO Live Tool这玩意儿有俩docker容器来实现支持，一个优化容器和一起模型转换容器。暂时具体不清楚原理，还没来得及看，后面试试。什么执行单元(Execution Provider, EP)能够提供最好的性能表现CPU版本的ONNX Runtime提供了完整的算子支持，因此只要编译过的模型基本都能成功运行。一个要注意的点是为了减少编译的二进制包能

2021-09-08 15:58:41 5502 8

原创【CVPR2021】Multi-Stage Progressive Image Restoration 多阶段渐进式通用图像恢复

首发于jwxie,cnMulti-Stage Progressive Image Restoration???? PDF Link ???? Github CodeSection 1 介绍图像恢复是一个从低质量的图像恢复出高清图像的任务。典型的低质量因素有噪声，模糊，水滴噪声，雾噪声等。这是一个高度病态的问题，因为本质上对一张输入的低质量图像存在无限的可行解。为此，许多工作通过增加人工设计的图像先验信息，同时限制解空间的大小为自然图像来解决上述问题。但是设计这种先验本身就已经是一个很具有挑战性的任

2021-07-01 17:47:40 3244

原创【论文阅读】CVPR 2021 论文摘要速览【未完待续】

CVPR 2021 速览首发于 jwxie.cn文章目录CVPR 2021 速览DAP: Detection-Aware Pre-training with Weak Supervision摘要主要流程图主要结果展示Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection摘要主要流程图主要结果展示Scale-aware Automatic Augmentation for Object

2021-05-22 22:06:12 1339

原创树莓派4B(RPI 4B) 编译NCNN - Ubuntu(x64)

在树莓派4b-Ubuntu上编译NCNN官方文档安装教程需要的一些环境gitg++cmakeprotocol buffer (protobuf) headers files and protobuf compilervulkan header files and loader libraryglslang(可选) opencv # 用于编译测试用例用以下命令安装以下一些依赖包：sudo apt install build-essential git cmake libprotobuf

2021-04-21 22:39:01 763

原创 Cython实现cpp和python的混合编程以及不同方法在速度和内存的实验性探索

首发于jwxie.cnCython 的一些小实验开头语这篇博客本质上是对Cython探索的一些记录，当然仅供周末空闲时间的一些娱乐。基础介绍这一段主要讲一下为什么我要做这么一个测试。主要原因是最近在工作中做了一些检测方面的内容，因为生产环境没有GPU，因此把所有模型都往CPU上挪了，但是除了模型部分的网络加速外，检测还有一些后处理比较费是时间，因此就想尝试一下是否可以对这一部分纯Python实现的内容进行加速。这里主要针对的部分是PriorBox的生成（对，你没有看错！不是NMS就是PriorB

2021-03-20 18:40:45 775 1

原创【论文阅读】ViT: AN IMAGE IS WORTH 16X16 WORDS 用Transformer干图像分类

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE用Transformer干碎CNN？???? PDF Link ???? Github CodeSection 1. IntroductionSelf-Attention在NLP里很火，例如Transformer。得益于计算效率以及可伸缩性，可以在训练出一个超过100B参数的巨大的模型，而且随着模型和数据集的增长，还没有出现性能饱和的现象。在CV领域

2021-01-23 17:59:37 4470

原创 RepVGG - 让VGG再次伟大！

RepVGG: Making VGG-style ConvNets Great Again???? PDF Link ???? Github CodeSection 1 介绍卷积网络最近成为了很多任务的主流解决方案。近期许多团队都开始专注更复杂、更精巧的网络结构设计如ResNet、DesNet等，甚至是使用NAS等自动结构搜索来进行网络设计。但是这类模型存在着一些缺陷：多分支的设计使得模型的实现落地和客制化变得困难，同时减慢了推理时间，并增加了内存占用。一些流行的操作虽然可以获得不错的准确率，

2021-01-16 18:57:04 1392 1

原创【NeurIPS2020】【NVIDIA】用有限的数据训练GAN 【论文翻译+解读】

Training Generative Adversarial Networks with Limited Data???? PDF Link ???? Github CodeSection 1. Introduction目前来说想要训练一个高质量的GAN需要的数据量是非常大的，尽管网络上有看似无穷无尽的图像数据可以获取，但是大多数由于客观类别、图像质量、地址位置、时间段、隐私和版权等各种问题，在一个问题上训练一个modern、high-quality的GAN模型存在较大的困难。传统方案是使用数据

2020-12-17 09:47:00 2244 1

原创【pSp】Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation【论文简单解读】

文章首发于jwxie.cnEncoding in Style: a StyleGAN Encoder for Image-to-Image Translation???? PDF Link ???? Github CodeSection 1 介绍近些日子，GAN在图像生成领域（尤其是人脸图像）取得了较大的进展。比如说StyleGAN就通过MLP实现了一个从离散的潜空间到人脸图像的可控、可编辑的人脸生成器。近些日子也又不少人尝试去进一步的探索了人脸编辑，但是很多情况下，我们需要把图像转换为潜空间里

2020-11-05 19:51:58 5173 1

原创 SRFlow 超分SOTA? PULSE的升级版？

首发于jwxie.cnSRFlow: Learning the Super-Resolution Space with Normalizing Flow???? PDF Link ???? Github ProjectSection 0 前置介绍（俺写的，不是论文作者写的）一些前置的有关于Flow的知识点：讲到Flow、Glow实际上还得从VAE和GAN说起。针对VAE和GAN我们也比较熟悉了，属于生成模型本质上就是给定一批数据，我们用这批数据来拟合出尽可能真实的数据分布。这里我们直接从连续变

2020-10-03 11:52:40 2679 15

原创关于pytorch的BN，在训练的模型上增添新模块[只训练新模块]

关于Pytorch的BN目前在做一些人脸方面的内容，场景是在一个训练完成的模型上加一些功能（要是模型也能支持装饰器就好了????）。假定现在已经有了一个训练好的模型A\mathbf{A}A（包含了BN和Dropout层），现在在A\mathbf{A}A的基础上额外添加了一些层LLL，需要对这些新添加的层进行训练。那么"常规"的做法就如下：model = build_new_model() # add requires_grad=False to those untrained parameters

2020-09-29 10:01:19 839

原创 DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译

DFDNet 论文翻译翻译工具: DeepLp.s. 用word写的(复制粘贴…????)，公式直接用的word的公式编辑器，csdn又不支持直接转换，我把word共享(link)出来了，想要良好的阅读体验看word会更好一些。Introduction盲目的人脸修复(或称人脸幻觉)旨在从真实的低质量(LQ)图像恢复到高质量(HQ)图像的真实细节，而不知道退化类型或参数。与单一的图像恢复任务相比，如图像超解像[9，36，46]、去噪[42，43]和去模糊[22，23]，盲图恢复面临更多的挑战，但在恢复

2020-09-25 14:38:26 4046 3

原创 TensorRT动态尺寸输入

TensorRT动态尺寸输入首先可以看一下官方TensorRT文档里的对限制性的一些描述以及一些Profile的一些描述在目前7.0的文档里TensorRT是支持动态输入的，这个章节里面还是有不少东西可以看看的，明确的给了API怎么用，Profile该怎么写。Dynamic shapes are the ability to defer specifying some or all tensor dimensions until runtime. Dynamic shapes can be use

2020-09-19 10:10:45 6012 1

Tsuinosora

原创 Wav2vec2 论文阅读看到的一些问题

原创【FFMPEG】解决截取MP4视频的中间段时，截取完成后前几帧视频卡住，但是有声音的情况

原创【AD-NeRF】音频驱动人脸NeRF

原创【NeRF】原始论文解读

原创【OCR】文本检测方案 TextFuseNet解读

原创【CVPR2021】OCR文本检测MOST解读

原创【论文解析】StyleGAN3 - Alias-Free Generative Adversarial Networks

原创 PP-LCNet论文全文解析

原创 OnnxRuntime 性能调优

原创【CVPR2021】Multi-Stage Progressive Image Restoration 多阶段渐进式通用图像恢复

原创【论文阅读】CVPR 2021 论文摘要速览【未完待续】

原创树莓派4B(RPI 4B) 编译NCNN - Ubuntu(x64)

原创 Cython实现cpp和python的混合编程以及不同方法在速度和内存的实验性探索

原创【论文阅读】ViT: AN IMAGE IS WORTH 16X16 WORDS 用Transformer干图像分类

原创 RepVGG - 让VGG再次伟大！

原创【NeurIPS2020】【NVIDIA】用有限的数据训练GAN 【论文翻译+解读】

原创【pSp】Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation【论文简单解读】

原创 SRFlow 超分SOTA? PULSE的升级版？

原创关于pytorch的BN，在训练的模型上增添新模块[只训练新模块]

原创 DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译

原创 TensorRT动态尺寸输入

原创 ONNX动态输入尺寸的问题【多输出/多输入】【pytorch/onnx/onnxruntime】

原创 CVPR2020-人脸识别一些论文解读摘要

原创弄个免费的https玩玩 (阿里云-docker+nginx:alpine+ssl=＞https)

原创 PPYOLO 简单的解读

原创 White Box Cartoonization 人工智能动画化0.0

原创 StyleGAN2 替换掉PULSE的欧洲脸和噪声

原创 PULSE (人种转换器~)

原创一些在论文阅读过程中看到的小知识

原创 ResNeSt 一个简单的解读

原创 YOLOv4 tricks的集合

原创 Network Design Spaces

原创 GhostNet 越来越多的小结构修改

原创 AnimeGAN a novel lightweight GAN for photo animation

原创使用阿里云OSS搭建图床

网络安全数据集-IDS2018-第二部分（共2部分）

网络安全数据集-IDS2018-第一部分

DFDNet [人脸幻构] [人脸超分] [ECCV2020] 论文翻译

空空如也