![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识总结
文章平均质量分 79
*pprp*
GiantPandaCV公众号作者,研究方向automl,nas
展开
-
BoTNet:Bottleneck Transformers for Visual Recognition
【GiantPandaCV导语】基于Transformer的骨干网络,同时使用卷积与自注意力机制来保持全局性和局部性。模型在ResNet最后三个BottleNeck中使用了MHSA替换3x3卷积。属于早期的结合CNN+Transformer的工作。简单来讲Non-Local+Self Attention+BottleNeck = BoTNet引言本文的发展脉络如下图所示:实际上沿着Transformer Block改进的方向进行的,与CNN架构也是兼容的。具体结构如下图所示:两者都遵循了Bott原创 2021-12-27 14:44:35 · 674 阅读 · 4 评论 -
【知识蒸馏】Knowledge Review
【GiantPandaCV引言】 知识回顾(KR)发现学生网络深层可以通过利用教师网络浅层特征进行学习,基于此提出了回顾机制,包括ABF和HCL两个模块,可以在很多分类任务上得到一致性的提升。摘要知识蒸馏通过将知识从教师网络传递到学生网络,但是之前的方法主要关注提出特征变换和实施相同层的特征。知识回顾Knowledge Review选择研究教师与学生网络之间不同层之间的路径链接。简单来说就是研究教师网络向学生网络传递知识的链接方式。代码在:https://github.com/Jia-Resear原创 2021-11-21 16:52:01 · 2123 阅读 · 0 评论 -
DeiT:使用Attention蒸馏Transformer
题目:Training data-efficient image transformers & distillation through attention【GiantPandaCV导语】Deit是一个全Transformer的架构,没有使用任何的卷及操作。其核心是将蒸馏方法引入VIT的训练,引入了一种教师-学生的训练策略,提出了token-based distillation。有趣的是,这种训练策略使用卷积网络作为教师网络进行蒸馏,能够比使用transformer架构的网络作为教师取得更好的效果原创 2021-09-24 10:18:44 · 1098 阅读 · 0 评论 -
如何更好地调整学习率?
【GiantPandaCV导读】learning rate对模型调优重要性不言而喻,想到超参数调优第一个可能想到的方法就是网格搜索Grid Search,但是这种方法需要大量的计算资源。之前使用fastai的时候发现其集成了一个功能叫lr_finder(), 可以快速找到合适的学习率,本文就主要分析这个15年就提出来的技术Cyclical Learning Rates。链接:https://arxiv.org/abs/1506.011861. 前言一般学习率可以人工设置,根据经验进行设置。通常会尝试原创 2021-07-06 09:35:42 · 3789 阅读 · 5 评论 -
高效管理深度学习实验
【GiantPandaCV导语】这学期参加了一个比赛,有比较大的代码量,在这个过程中暴露出来很多问题。由于实验记录很糟糕,导致结果非常混乱、无法进行有效分析,也没能进行有效的回溯。趁比赛完结,打算重构一下代码,顺便参考一些大型项目的管理方法。本文将总结如何高效、标准化管理深度学习实验。以下总结偏个人,可能不适宜所有项目,仅供参考。1. 目前的管理方法因为有很多需要尝试的想法,但是又按照下图这种时间格式来命名文件夹,保存权重。每次运行尝试的方法只是记录在本子上和有道云笔记上。笔记截图:总体来说,这原创 2021-06-10 09:47:23 · 630 阅读 · 0 评论 -
Python Yaml配置工具
【GiantPandaCV导语】深度学习调参过程中会遇到很多参数,为了完整保存一个项目的所有配置,推荐使用yaml工具进行配置。简介Yaml是可读的数据序列化语言,常用于配置文件。支持类型有:标量(字符串、证书、浮点)列表关联数组 字典语法特点:大小写敏感缩进表示层级关系列表通过 “-” 表示,字典通过 ":"表示注释使用 “#”安装用命令:pip install pyyaml使用举个例子:name: tosanage: 22skill: name1: co原创 2021-06-09 09:01:19 · 314 阅读 · 0 评论 -
自然辩证法小总结思维导图
原创 2021-06-05 08:35:59 · 2703 阅读 · 0 评论 -
【Pytorch基础】BatchNorm常识梳理与使用
BatchNorm, 批规范化,主要用于解决协方差偏移问题,主要分三部分:计算batch均值和方差规范化仿射affine算法内容如下:需要说明几点:均值和方差是batch的统计特性,pytorch中用running_mean和running_var表示$\gamma 和和和\beta$是可学习的参数,分别是affine中的weight和bias以BatchNorm2d为例,分析其中变量和参数的意义:affine: 仿射的开关,决定是否使用仿射这个过程。affine=Fa原创 2021-05-29 11:04:06 · 988 阅读 · 0 评论 -
如何阅读和学习深度学习项目代码
【前言】现在深度学习项目代码量越来越大,并且单个文件的量也非常的大。笔者总结了一些专家的经验并结合自己看的一些项目,打算总结一下如何探索和深入一个深度学习项目库。笔者pprp,未经允许不得擅自转发。1. 基础知识首先,需要保证有一定的深度学习基础知识,吴恩达的深度学习课还有斯坦福大学的CS231n都是不错的入门教程,只需要有大学数学的基础就可以看懂。然后,需要对Linux系统使用有一定的了解,一般选择Ubuntu系统作为主力系统,了解一下基础的系统命令就可以了,比如rm,ls,cd,cat,vim,s原创 2021-05-27 21:45:05 · 1915 阅读 · 1 评论 -
分布式与云计算系统 考试内容总结
文章目录概念问答在云计算应用中使用虚拟化资源的优点:WS-*和RESTful Web服务的区别:为什么网格在学术应用中流行,而云计算在商业应用中占主导地位?概念高性能计算系统(HPC):强调的是原始的速度性能,通常用来衡量浮点计算能力。【速度性能】高吞吐计算系统(HTC):强调的是单位时间完成的任务数,而不是单个任务能有多快完成。【单位时间 任务数】Peer-to-peer P2P网络:是一种分布式应用架构,他将任务划分到多个节点上,每个节点同时充当客户端和服务器,采用的是分布式控制的自原创 2021-05-26 15:02:42 · 505 阅读 · 0 评论