星月野-CSDN博客

原创 Deep Learning Paper读后简记

发现自己看完paper，总是很快就会被大脑删档，特此进行专栏记录，希望能够持续更新---QuantizationRobust Quantization: One Model to Rule Them All paper code **针对于目前的qat等方法所得到的模型对于不同的量化参数设置太敏感的问题，提出训练一个足够robust的模型，能够普适地用于不同场景下的不同量化超参。文中证明了uniform的权重分布相比于一般的normal的权重分布更加robust更加抗噪，提出通过引入 KUR

2021-12-12 22:00:22 2598

原创 GDP: Network Pruning

GDP: Stabilized Neural Network Pruning via Gates with Differentiable Polarizationhttps://arxiv.org/abs/2109.02220https://arxiv.org/abs/2109.02220Background and Related work and Limitation通道裁剪作为作为一种常用的神经网络压缩方法，目前受到广泛关注。目前的通道裁剪方法，文中将其主要归结为两大类：基于重要性（imp

2021-10-17 23:39:13 875

原创 QAT：IAO+DoReFa

最近看了两篇早期著名的QAT(Quantization Aware Training)的文章：IAO(Integer-Arithmetic-Only)和DoReFa，统一整理如下：IAO: https://arxiv.org/pdf/1712.05877.pdfDoReFa：https://arxiv.org/abs/1606.06160Background背景部分其实无需过多介绍，量化早已成为了神经网络部署过程中必不可少的一个步骤，而针对它的算法研究更是层出不穷，例如低比特的INQ，甚至1

2021-10-11 13:52:57 671 1

原创 Generalized Focal Loss

Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detectionhttps://arxiv.org/abs/2006.04388Backgroundone-stage的目标检测任务一般将任务划分为两个方向：classification和localization，在网络训练过程中，这两个方向一般是独立进行优化的，如下图所示。图1 传统detection任务

2021-09-26 00:51:28 864

原创 leetcode题解：矩阵置零

题目描述给定一个m x n 的矩阵，如果一个元素为 0 ，则将其所在行和列的所有元素都设为 0 。请使用原地算法。进阶：一个直观的解决方案是使用 O(mn)的额外空间，但这并不是一个好的解决方案。一个简单的改进方案是使用 O(m+n) 的额外空间，但这仍然不是最好的解决方案。你能想出一个仅使用常量空间的解决方案吗？来源：力扣（LeetCode）题目分析题目其实很简单，主要就是题目中要求的如何来缩减额外空间（注意：是空间复杂度，刚开始看成了时间复杂度，纠结好久...

2021-08-29 23:28:35 353 1

原创 DL-Paper精读：LSTM + Transformer 架构模型

Transformer Language Models with LSTM-based Cross-Utterance Information Representationhttps://arxiv.org/abs/2102.06474arxiv.orgBackground近来，源于某个神奇的需求，需要研究Transformer和LSTM相结合的模型架构。这两者作为自然语言领域两个时代的王者，似乎对立的戏份远大于合作。常理来说，在Transformer刚刚被提出来的一两年内，应该有很多关于..

2021-07-11 23:24:48 5247 7

原创 DL-Paper精读：Swin Transformer

Swin Transformer: Hierarchical Vision Transformer using Shifted Windowshttps://arxiv.org/abs/2103.14030Transformer在Vision领域的各项任务上已经占据了sota的地位，目前精度最高的模型便是Swin Transformer，一个针对于图像任务的实体分辨率问题进行优化的工作，今天对其进行详细的研究。Current works and LimitationViT及Deit等工作..

2021-07-11 23:19:28 404

原创 DL-Paper精读：Tiny-BERT

TinyBERT: Distilling BERT for Natural Language Understandinghttps://arxiv.org/pdf/1909.10351.pdfarxiv.orgBackgroud and Issue在NLP领域，预训练模型（BERT, XLNet, GPT-3）等已经取得了极大的成功。但是因为预训练模型极大的参数量和推理时间，因此对移动端部署带来了很大的困难。急需一种有效的方式，能够在保持预训练模型精度的同时，尽量地压缩其计算消耗和模型大小。

2021-06-21 23:58:47 420

原创 DL-Paper精读：NAS-BERT

NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression With Neural Architecture Searchhttps://zhuanlan.zhihu.com/p/382164328/edit#:~:text=NAS-BERT%3A%20Task,%E7%AE%97%E6%98%AF%E4%B8%80%E4%B8%AA%E7%BC%BA%E6%86%BE%E3%80%82Backgroud尽管BERT等一票预训练模型已经在

2021-06-21 23:48:26 315

原创 DL-Paper精读：MLP-Mixer

MLP-Mixer: An all-MLP Architecture for VisionPaper（大厂论文总是不走寻常路，这篇总结暂且不遵循以往的阅读模式）近期，谷歌新发布了一篇论文《MLP-Mixer》，号称使用纯MLP结构，便能在ImageNet上达到sota的结果。一石激起千层浪，很快清华、牛津、facebook等也相继发布了类似的工作，虽然没有像谷歌一样号称纯MLP取代CNN和Transformer。但也不由得让业界惊呼，MLP的时代又回来了？CV领域的发展历程，MLP -> CNN

2021-06-02 22:31:17 319 3

原创 DL-Paper精读：HAT

HAT: Hardware-Aware Transformers for Efficient Natural Language BackgroundIssueProposed ApproachesArbitrary Encode-Decoder AttentionHeterogeneous LayersExperimentsThoughtsPaper PDFBackgroundTransformer被广泛应用于NLP领域，但是它在移动端的部署问题一直都是一个巨大的挑战。例如，处理一个30words的翻

2021-06-02 22:20:40 295

原创 DL-Paper精读：Revisiting ResNets

Revisiting ResNets: Improved Training and Scaling Strategieshttps://arxiv.org/abs/2103.07579v1Background影响一个神经网络模型的认知能力的主要因素，可以被粗略的分为以下几个部分：结构（architecture）：关于网络结构的改进工作，一直以来最受人关注，著名的工作包括：AlexNet，VGG，ResNet，Inception，ResNext等。近两年，一大批基于模型结构自动搜索（NAS）的

2021-04-19 00:12:30 607 1

原创 DL-Paper精读：MobileBERT

MobileNERT: a Compact Task-Agnostic BERT for Resource-Limited Deviceshttps://arxiv.org/abs/2004.02984BackgroundBERT在NLP领域的地位是举足轻重的，其预训练模型，在多种下游任务的迁移工作中都能给出非常好的效果。但于此同时，BERT也受困于其庞大的模型参数和较慢的运行速度，尤其是在于一些资源受限的移动端部署任务中，BERT的实际应用是非常受限的。Related work and t

2021-04-19 00:02:14 364

原创 DL-Paper精读：RepVGG

RepVGG：Making VGG-style ConvNets Great Againhttps://arxiv.org/abs/2101.03697BackgroundVGG在神经网络的发展历史中有着举足轻重的地位，13年一举夺下ImageNet分类冠军，时至今日，依然被广泛研究和使用。虽然这些年已经有各种工作，逐渐在精度层面超越了VGG，如ResNet，Icp等经典多分支网络网络，及更近些年基于搜索的NAS类工作及RegNet等精心设计的网络。但这些网络结构，虽然在分类精度上表现出更好的优

2021-04-07 00:04:27 204

原创 DL-Paper精读：CPVT-可变Position encoding

Do We Really Need Explicit Position Encodings for Vision Transformers?https://arxiv.org/abs/2102.10882Background近两年，Transformer结构进军CV领域，并以席卷之势相继攻克了分类，检测，分割等等任务。因为CNN所关注的是有限感受野内的信息，而Transformer的自注意力机制则可以捕获长距离信息，并且根据图像尺寸而动态地调整其感受野，因此Transformer能够在各个任务领

2021-03-02 23:53:03 1035

原创 DL-Paper精读：DeiT

Training data-efficient image transformersa& distillation through attentionhttps://arxiv.org/abs/2012.12877BackgroundTransformer在CV领域已呈席卷之势滚滚而来~Related work and the limitViT(Vision Transformer)对二维图像进行切片并序列化作为输入，将NLP中的Transformer结构直接引入图像分类任务中，

2021-02-26 23:54:02 245

原创 DL-Paper精读：Vision Transformer

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALEhttps://openreview.net/pdf?id=YicbFdNTTybackgroundTransformer已经成为了NLP领域的“the model of choice”, 主流做法（如BERT, GPT等）一般为在一个巨大的文本库上进行预训练，然后再在一个较小的具体任务数据集上进行fine-tune。受益于Transform.

2021-02-13 18:34:25 337 1

原创 DL-Paper精读：NF-ResNets

CHARACTERIZING SIGNAL PROPAGATION TO CLOSE THE PERFORMANCE GAP IN UNNORMALIZED RESNETShttps://arxiv.org/pdf/2101.08692.pdfbackground目前的CV领域，BatchNormalization几乎是所有SOTA工作中必备的操作。它确实带来了很多好处，例如：平滑了Loss平面，同时消除了因mini_batch带来的噪声，整体来说就是提高了网络训练的速度和稳定性。.

2021-02-10 22:38:26 945

原创 leetcode题解：搜索旋转排序数组（33）

题目描述升序排列的整数数组 nums 在预先未知的某个点上进行了旋转（例如， [0,1,2,4,5,6,7] 经旋转后可能变为[4,5,6,7,0,1,2] ）。请你在数组中搜索target ，如果数组中存在这个目标值，则返回它的索引，否则返回-1来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/search-in-rotated-sorted-array题目分析题目case设计不合理，所以直接遍历搜索貌似效率很高。。。...

2021-01-20 23:54:44 88

原创 DL-paper精读：Learning Filter Pruning Criterion

Learning Filter Pruning Criteria for Deep Convolutional Neural Networks Accelerationhttps://openaccess.thecvf.com/content_ECCV_2018/papers/Zehao_Huang_Data-Driven_Sparse_Structure_ECCV_2018_paper.pdfbackgroundNN部署balabala~~~。related work and ..

2021-01-20 22:39:42 378

原创 leetcode题解：下一个排列

题目描述实现获取下一个排列的函数，算法需要将给定数字序列重新排列成字典序中下一个更大的排列。如果不存在下一个更大的排列，则将数字重新排列成最小的排列（即升序排列）。必须原地修改，只允许使用额外常数空间。来源：力扣（LeetCode）题目分析字典序排列，只允许使用常数空间。最初思路即为建立字典树，进行遍历，但时间内存超限不可行题解：学习（powcai）大神的思路字典序的排列，是从最后往前的变动，因此选择从后往前查找，具体操作为：1、先找出最大的索引 k 满足 .

2021-01-19 00:16:04 113

原创 leetcode题解：两数相除

题目描述给定两个整数，被除数dividend和除数divisor。将两数相除，要求不使用乘法、除法和 mod 运算符。返回被除数dividend除以除数divisor得到的商。整数除法的结果应当截去（truncate）其小数部分，例如：truncate(8.345) = 8 以及 truncate(-2.7335) = -2来源：力扣（LeetCode）题目分析整除计算，不允许使用乘除和mod运算，因此考虑采用加减运算，比较大小来进行除法的计算。除数和被除数的符号...

2021-01-11 22:59:42 270

原创 DL-Paper精读：Training SDNNs with IHT

Training Skinny Deep Neural Networks with Iterative Hard Thresholding Methodshttps://openaccess.thecvf.com/content_ECCV_2018/papers/Zehao_Huang_Data-Driven_Sparse_Structure_ECCV_2018_paper.pdfbackgroundDNN在各个领域应用取得巨大成功的同时，也因其巨大的参数量而带来了两个严重的问题：1、过拟.

2020-12-15 00:02:23 152

原创 paper阅读：Sparse Structure Selection

Data-Drive Sparse Structure Selection for Deep Neural Networkshttps://openaccess.thecvf.com/content_ECCV_2018/papers/Zehao_Huang_Data-Driven_Sparse_Structure_ECCV_2018_paper.pdfbackground模型压缩balabala…related work and the limit传统的结构剪枝方法（给出了上..

2020-12-10 23:17:03 253

原创 paper阅读：Rethinking the smller-norm-less-informative assumption

链接：https://arxiv.org/abs/1802.00124backgroundpruning是一种广泛使用的模型压缩方法，它不仅有利于减少计算消耗，也可能有助于避免模型训练过拟合。related work and the limit目前，很大一部分剪枝的工作基于“smaller-norm-less-informative”的假设来实现。但该假设在有的时候并不一定成立（“regularization-based pruning techniques potentially hurt

2020-12-02 00:17:01 362

原创 leetcode题解：合并区间

题目描述给出一个区间的集合，请合并所有重叠的区间。示例 1:输入: intervals = [[1,3],[2,6],[8,10],[15,18]]输出: [[1,6],[8,10],[15,18]]解释: 区间 [1,3] 和 [2,6] 重叠, 将它们合并为 [1,6].来源：力扣（LeetCode）题目分析区间合并，首先考察数组边界的访问问题。然后，对于数组的循环操作，如何正确使用递归，或采用更简洁的方式简化问题，降低时间和空间复杂度第一思路：递归法维护一个无.

2020-08-27 00:13:52 247

原创 leetcode题解：螺旋矩阵

题目描述：给定一个包含m x n个元素的矩阵（m 行, n 列），请按照顺时针螺旋顺序，返回矩阵中的所有元素。示例1:输入:[[ 1, 2, 3 ],[ 4, 5, 6 ],[ 7, 8, 9 ]]输出: [1,2,3,6,9,8,7,4,5]来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/spiral-matrix题目分析：本题主要考察二维矩阵的边界检查，简单遍历即可第一思路：给定上下左右四个方...

2020-08-24 00:24:01 257

原创 leetcode题解：最长无重复字符子串

题目描述：给定一个字符串，请你找出其中不含有重复字符的最长子串的长度。示例1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc"，所以其长度为 3。来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/longest-substring-without-repeating-characters著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。classSolution{...

2020-08-18 23:46:16 184

原创 leetcode题解：跳跃游戏

题目介绍：给定一个非负整数数组，你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个位置。示例1:输入: [2,3,1,1,4]输出: true解释: 我们可以先跳 1 步，从位置 0 到达位置 1, 然后再从位置 1 跳 3 步到达最后一个位置。（来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/jump-game著作权归领扣网络所有。商业转载请联系官方授权，非商业转载.

2020-08-18 23:03:05 180

原创矩阵求导链式法则学习

矩阵求导计算公式前要：变量多次出现的求导法则：若某个变量在函数表达式中多次出现，可以单独计算函数对自变量的每一次出现的导数，再把结果加起来。用计算图来描述本条法则，就是：若变量x有多条影响函数f的值的路径，则计算时需要对每条路径经求导再加和。例：，可以先把三个x看做三个不同的变量，即,然后分别求导得,,,最后再把这三项加起来，并抹掉下标可以得到。变量多次出现的求导法则，在自动编码器（a...

2019-02-01 22:58:43 11337

原创矩阵导数定义

矩阵求导：本质上只不过是多元函数求导，仅仅是把函数的自变量以及求导的结果排列成了矩阵的形式，方便表达与计算而已。导数定义：矩阵/向量值函数对实数的导数求导结果与函数值同型（m×n矩阵求导结果也是m×n矩阵），且每个元素就是函数值的相应分量对自变量x求导，∂f∂xij=∂fij∂x。导数可以记做∇xF或∇'F实值函数对矩阵/向量的导数求导结果与自变量同型，且每个元素就是f对自变量的相应...

2019-01-31 21:53:15 2180 1

星月野的博客