*pprp*-CSDN博客

原创【服务器无法联网怎么配环境】ubuntu服务器离线安装pip，deb离线安装方法

pip离线安装在你自己的电脑上将包下载好，使用命令：pip download -d ./pkg_template albumentationsalbumentations就是你想要安装的包。如果嫌下载太慢，可以在命令行换源pip download -d ./pkg_template albumentations -i https://mirrors.aliyun.com/pypi/simple（1）直接把jieba包下载到/usr/local/download/pip/目录下pip dow

2020-12-21 16:06:36 2623 1

原创 LaTeX书写公式速查

（以下内容主要摘自“一份不太简短的 LATEX2e 介绍”）文章目录数学重音符号文本/数学模式通用符号希腊字母二元关系符二元运算符巨算符箭头定界符跨行大公式大定界符其他amssymb包中的AMS符号数学重音符号文本/数学模式通用符号希腊字母二元关系符二元运算符巨算符箭头定界符跨行大公式大定界符其他amssymb包中的AMS符号...

2020-11-03 15:43:49 577

原创 vscode远程连接深度学习服务器教程

前言：在知乎还有csdn都尝试过配置远程连接服务器，配置过pycharm和vscode, pycharm配置最后还是有一点问题，没有办法同步到服务器，不知道具体哪里有问题，另外感觉pycharm很占内存，而且indexing的过程有点烦，所以摸索着转战vscode, vscode没有让人失望，有sftp和remote development两个插件可供选择，根据自己的需求进行选择，也可以同时配置...

2019-11-07 18:52:57 10450 4

原创 Huggingface Transformer踩坑记录

出现这个问题的原因是：处理方法：持续更新中。。。。

2024-05-11 09:08:34 273

原创 Notion+Zotero+Notero 联动教程（23年9月更新版）

下载Zotero Connector at https://www.zotero.org/download/connectors。https://arxiv.org/abs/1706.03762 以这篇文章为例，点击右上角插件，保存到资料库。下载Notero at https://github.com/dvanoni/notero/releases。下载Notion at https://www.notion.so/desktop。下载Zotero at https://www.zotero.org/

2023-09-15 16:28:34 4332

原创 Spack：软件包管理的终极解决方案以 unzip 无sudo权限安装为例

Spack 是一个高度可配置的软件包管理工具，旨在支持各种软件栈的安装和管理。尽管最初是为高性能计算设计的，但 Spack 的灵活性和扩展性使其也能在多种计算环境中派上用场，包括个人电脑和云基础设施。

2023-09-02 15:09:17 778

原创 ERROR: No matching distribution found for setuptools＞=40.6.2

来源：https://github.com/facultyai/dash-bootstrap-components/issues/401。

2023-03-30 08:37:46 1331 2

原创 PyTorch模型训练集正常收敛，但验证集准确率稳定在10%并保持不变

The Validation Accuracy of model, implemented in PyTorch, always got 10% and not converge.

2022-08-07 17:07:12 4713 8

原创 Compact-Transformer：缓解数据不足带来的问题

【GiantPandaCV导语】本文致力于解决ViT在小型数据集上性能不够好的问题，这个问题非常实际，现实情况下如果确实没有大量数据集，同时也没有合适的预训练模型需要从头训练的时候，ViT架构性能是不如CNN架构的。这篇文章实际上并没有引入大量的卷积操作，通过修改patch size，以及使用SeqPool的方法就可以取得不错的成绩。引言ViT不适用于小数据集，但是由于很多领域中数据量大小是非常有限的，为了打破ViT数据匮乏下性能不好，只能应用于大数据集的问题。本文提出使用正确的尺寸以及tokeniz

2022-03-21 20:49:32 3798

原创 2021 BDCI 华为零售商品识别竞赛一等奖方案分享

【GiantPandaCV导语】上学期快结束的时候参加了华为和CCF组织的零售商品识别的比赛，队伍名称为GiantPandaCV队，比赛大约持续了两个月，期间从开始摸索MindSpore框架，配置环境，上手ModelArts花费了不少功夫。现在比赛终于告一段落，本文进行一下复盘。背景CCF大数据与计算智能大赛（CCF Big Data & Computing Intelligence Contest，简称CCF BDCI）由中国计算机学会于2013年创办。大赛由国家自然科学基金委员会指导，是大.

2022-01-26 09:25:13 599 2

原创当可变形注意力机制引入Vision Transformer

【GiantPandaCV导语】通过在Transformer基础上引入Deformable CNN中的可变性能力，在降低模型参数量的同时提升获取大感受野的能力，文内附代码解读。引言Transformer由于其更大的感受野能够让其拥有更强的模型表征能力，性能上超越了很多CNN的模型。然而单纯增大感受野也会带来其他问题，比如说ViT中大量使用密集的注意力，会导致需要额外的内存和计算代价，特征很容易被无关的部分所影响。而PVT或者Swin Transformer中使用的sparse attention是数

2022-01-22 21:41:57 1870

原创 CoAtNet: 90.88% Paperwithcode榜单第一，层层深入考虑模型设计

【GiantPandaCV导语】CoAt=Convolution + Attention，paperwithcode榜单第一名，通过结合卷积与Transformer实现性能上的突破，方法部分设计非常规整，层层深入考虑模型的架构设计。引言Transformer模型的容量大，由于缺乏正确的归纳偏置，泛化能力要比卷积网络差。提出了CoAtNets模型族：深度可分离卷积与self-attention能够通过简单的相对注意力来统一化。叠加卷积层和注意层在提高泛化能力和效率方面具有惊人的效果方法这部

2022-01-08 18:26:07 2728

原创 CeiT：训练更快的多层特征抽取ViT

【GiantPandaCV导语】来自商汤和南洋理工的工作，也是使用卷积来增强模型提出low-level特征的能力，增强模型获取局部性的能力，核心贡献是LCA模块，可以用于捕获多层特征表示。引言针对先前Transformer架构需要大量额外数据或者额外的监督(Deit)，才能获得与卷积神经网络结构相当的性能，为了克服这种缺陷，提出结合CNN来弥补Transformer的缺陷，提出了CeiT:（1）设计Image-to-Tokens模块来从low-level特征中得到embedding。（2）将Tran

2022-01-08 16:20:18 2010

原创 CvT: 如何将卷积的优势融入Transformer

【GiantPandaCV导语】与之前BoTNet不同，CvT虽然题目中有卷积的字样，但是实际总体来说依然是以Transformer Block为主的，在Token的处理方面引入了卷积，从而为模型带来的局部性。最终CvT最高拿下了87.7%的Top1准确率。引言CvT架构的Motivation也是将局部性引入Vision Transformer架构中，期望通过引入局部性得到更高的性能和效率权衡。因此我们主要关注CvT是如何引入局部性的。具体来说提出了两点改进：Convolutional token

2022-01-01 16:09:29 1782 3

原创 BoTNet:Bottleneck Transformers for Visual Recognition

【GiantPandaCV导语】基于Transformer的骨干网络，同时使用卷积与自注意力机制来保持全局性和局部性。模型在ResNet最后三个BottleNeck中使用了MHSA替换3x3卷积。属于早期的结合CNN+Transformer的工作。简单来讲Non-Local+Self Attention+BottleNeck = BoTNet引言本文的发展脉络如下图所示：实际上沿着Transformer Block改进的方向进行的，与CNN架构也是兼容的。具体结构如下图所示：两者都遵循了Bott

2021-12-27 14:44:35 695 4

原创 CNN、Transformer、MLP的经验性分析

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP【GiantPandaCV导语】ViT的兴起挑战了CNN的地位，随之而来的是MLP系列方法。三种架构各有特点，为了公平地比较几种架构，本文提出了统一化的框架SPACH来对比，得到了具有一定insight的结论。背景近期Transformer MLP系列模型的出现，增加了CV领域的多样性，MLP-Mixer的出现表明卷积或者注意力都不是模型性能优异

2021-12-24 10:20:41 2978 3

原创知识蒸馏综述：代码整理

【GiantPandaCV导语】收集自RepDistiller中的蒸馏方法，尽可能简单解释蒸馏用到的策略，并提供了实现源码。1. KD: Knowledge Distillation全称：Distilling the Knowledge in a Neural Network链接：https://arxiv.org/pdf/1503.02531.pdf发表：NIPS14最经典的，也是明确提出知识蒸馏概念的工作，通过使用带温度的softmax函数来软化教师网络的逻辑层输出作为学生网络的监督信息，q

2021-12-13 12:25:55 2946 1

原创知识蒸馏综述:网络结构搜索应用

【GiantPandaCV导语】知识蒸馏将教师网络中的知识迁移到学生网络，而NAS中天然的存在大量的网络，使用KD有助于提升超网整体性能。两者结合出现了许多工作，本文收集了部分代表性工作，并进行总结。1. 引言知识蒸馏可以看做教师网络通过提供soft label的方式将知识传递到学生网络中，可以被视为一种更高级的label smooth方法。soft label与hard label相比具有以下优点：模型泛化能力更强降低过拟合的风险一定程度上降低了学生网络学习的难度。对噪声更加鲁棒。具有更多

2021-12-12 19:32:19 2967

原创知识蒸馏综述:蒸馏机制

【GiantPandaCV导语】Knowledge Distillation A Suvery的第二部分，上一篇介绍了知识蒸馏中知识的种类，这一篇介绍各个算法的蒸馏机制，根据教师网络是否和学生网络一起更新，可以分为离线蒸馏，在线蒸馏和自蒸馏。感性上理解三种蒸馏方式：离线蒸馏可以理解为知识渊博的老师给学生传授知识。在线蒸馏可以理解为教师和学生一起学习。自蒸馏意味着学生自己学习知识。1. 离线蒸馏 Offline Distillation上图中，红色表示pre-trained, 黄色代表To

2021-12-04 14:11:21 3217

原创知识蒸馏综述: 知识的类型

【GiantPandCV引言】简单总结一篇综述《Knowledge Distillation A Survey》中的内容，提取关键部分以及感兴趣部分进行汇总。这篇是知识蒸馏综述的第一篇，主要内容为知识蒸馏中知识的分类，包括基于响应的知识、基于特征的知识和基于关系的知识。知识蒸馏简介定义：知识蒸馏代表将知识从大模型向小模型传输的过程。作用：可以用于模型压缩和训练加速手段。综述梳理思路：知识蒸馏的种类训练机制教师-学生架构蒸馏算法性能比较实际应用典型的知识蒸

2021-11-28 09:43:49 925

原创【知识蒸馏】Knowledge Review

【GiantPandaCV引言】知识回顾（KR）发现学生网络深层可以通过利用教师网络浅层特征进行学习，基于此提出了回顾机制，包括ABF和HCL两个模块，可以在很多分类任务上得到一致性的提升。摘要知识蒸馏通过将知识从教师网络传递到学生网络，但是之前的方法主要关注提出特征变换和实施相同层的特征。知识回顾Knowledge Review选择研究教师与学生网络之间不同层之间的路径链接。简单来说就是研究教师网络向学生网络传递知识的链接方式。代码在：https://github.com/Jia-Resear

2021-11-21 16:52:01 2161

原创 loss.backward() Segmentation fault 段错误

在运行一个非常简单的深度学习程序的时候，发现运行一段时间会报错段错误经过定位发现是执行loss.backward()的时候出现的问题，而源码明显是没有什么问题的。具体排查可以这样：gdb --args python train.py 然后发现这个问题是存在pytorch内部的，而不是自己写的逻辑有问题。注：这个torch版本是1.8.0, 执行其他程序没有明显报错。更新到1.10.0版本就可以解决segmentation fault的问题。...

2021-11-20 09:45:39 1727

原创【知识蒸馏】Deep Mutual Learning

【GiantPandaCV导语】Deep Mutual Learning是Knowledge Distillation的外延，经过测试（代码来自Knowledge-Distillation-Zoo), Deep Mutual Learning性能确实超出了原始KD很多，所以本文分析这篇CVPR2018年被接受的论文。同时PPOCRv2中也提到了DML，并提出了CML，取得效果显著。引言首先感谢：https://github.com/AberHu/Knowledge-Distillation-Zoo笔者

2021-11-16 22:08:22 1230 17

原创 Towards Oracle Knowledge Distillation with NAS

【GiantPandaCV导语】本文介绍的如何更好地集成教师网络，从而更好地提取知识到学生网络，提升学生网络的学习能力和学习效率。从方法上来讲是模型集成+神经网络结构搜索+知识蒸馏的综合问题，在这里使用简单的NAS来降低教师网络与学生网络之间的差距。背景介绍解决的问题？希望从集成的教师网络中提取知识到学生网络，从而提升学习能力和学习效率。model ensemble + NAS + KDMotivation: This is motivated by the fact that kno

2021-11-11 15:51:59 1379

原创【分类技巧】Fixing the train-test resolution discrepancy

【GiantPandaCV导语】调研分类方法的时候师姐推荐的一篇paper，其核心是训练的时候使用小分辨率，测试的时候使用大分辨率（训练分辨率的1.15倍），能够有效提升验证精度。MotivationImageNet数据集分类模型通常采用的数据增强方式会导致训练时和测试时的模型看到的目标尺寸出现差异。即训练分辨率的降低可以一定程度上提高测试阶段的精度。举个例子：图一：原先的ImageNet训练方法上图代表训练阶段图片处理流程：训练阶段主要通过随即选择一块矩形区域，然后resize到224固定大小

2021-11-08 16:47:21 1227

原创 Bag of Tricks for Neural Architecture Search

Bag of Tricks for Neural Architecture Search【GiantPandaCV导语】相比于普通的分类网络，基于超网的NAS更加难以训练，会出现收敛效果较差甚至不收敛的情况。并且，基于超网的NAS还需要额外关注子网的排序一致性等问题，训练策略的选择也极为重要。AutoSlim, BigNAS等文章都花费了大量篇幅来讲解超网的训练技巧。本文是CVPR2021 Workshop中的一篇短文，作者单位是de bosch，介绍了NAS中常用的trick。1. 介绍NAS在很

2021-11-05 09:44:54 188

原创【神经网络搜索】NasBench301 使用代理模型构建Benchmark

【神经网络搜索】NasBench301 使用代理模型构建Benchmark【GiantPandaCV导语】本文介绍的是NAS中的一个benchmark-NASBench301, 由automl.org组织发表，其核心思想是针对表格型基准存在的不足提出使用代理模型拟合架构与对应准确率。Paper: NAS-Bench-301 and The case for surrogate benchmarks for Neural Architecture SearchCode: https://github.c

2021-11-01 08:16:10 933

原创 libpng warning iCCP 错误处理方法

png图片缺乏某些库，导致损坏，或者多余了一些数据会导致以下报错：libpng warning: iCCP: known incorrect sRGB profilelibpng warning iccp extra compressed data一些可能的解决方案：已有方案来自：https://blog.csdn.net/qq_37924224/article/details/119181028libpng 1.6及以上版本增强了ICC profiles检查，所以发出警告。从 PNG 图像

2021-10-30 19:18:55 4793

原创【环境安装】please confirm that the path of cuda is set to the env LD_LIBRARY_PATH

问题描述在按照官方教程安装完成以后，执行 python -c "import mindspore", 报一下错：[WARNING] ME(9662:140307555661632,MainProcess):2021-10-28-20:46:21.685.307 [mindspore/run_check/_check_version.py:181] Cuda [‘10.1’, ‘11.1’] version(need by mindspore-gpu) is not found, please confi

2021-10-28 21:01:48 745

原创 NetAug 韩松团队新作解决欠拟合问题

【GiantPandaCV导语】本文介绍的是韩松团队针对欠拟合问题提出的一种解决方案，在代价可接受范围内能够提升小模型的性能。引入专用于解决小型网络模型欠拟合带来的问题，通过引入更大的模型包围住小模型从而得到额外的监督信息。欠拟合情况下使用正则化方法进行处理会导致性能更差。NetAug适用场景：数据集量比较大模型参数量相对而言比较小由于模型容量有限导致的欠拟合问题问题明确与知识蒸馏区别：知识蒸馏相当于学习一个soft label(或者说learned label s

2021-10-28 14:15:24 219

原创 Tmux科研利器-更方便地管理实验

1. 概念解释基础部件是session(会话)每个会话可以创建多个window(窗口)每个窗口可以划分多个pane(窗格)2. 常用命令解释tmux的退出 : ctrl + d 或者 exit命令tmux前缀键：Ctrl+b+x - x=? 的时候是帮助信息（按q退出） - x=d 分离当前session - x=s 列出所有session - x=$ 重命名session - x=n 切换到下一个窗口启动tmux session: tm

2021-10-16 10:51:17 270

原创【神经网络架构搜索】DNA: Block-wisely Supervised NAS with KD

【GiantPandaCV导语】知识蒸馏结合NAS的一篇工作，提出了DNA，让教师网络来指导超网的学习。这个工作将知识蒸馏非常深入的融合在一起，有很强的创新性，已被CVPR20接收。1. 背景介绍知识蒸馏通常作为One-Shot NAS中的一个训练技巧，但是他起到非常大的作用。简便起见，知识蒸馏在这里被分为四类：基于softmax输出层的知识蒸馏基于中间层的知识蒸馏基于相关性知识的知识蒸馏基于GAN的知识蒸馏第一个基于softmax输出层的知识蒸馏是最传统的，Hinton

2021-09-27 15:31:45 362

原创 DeiT：使用Attention蒸馏Transformer

题目：Training data-efficient image transformers & distillation through attention【GiantPandaCV导语】Deit是一个全Transformer的架构，没有使用任何的卷及操作。其核心是将蒸馏方法引入VIT的训练，引入了一种教师-学生的训练策略，提出了token-based distillation。有趣的是，这种训练策略使用卷积网络作为教师网络进行蒸馏，能够比使用transformer架构的网络作为教师取得更好的效果

2021-09-24 10:18:44 1139

原创 ECCV20 BigNAS无需后处理直接部署

【GiantPandaCV导语】这篇是Slimmable Network三部曲之后的续作，提出了Single-Stage的超网训练方法，在更大的搜索空间中，提出了很多训练的Trick来提升训练效果以及稳定训练过程。0. InfoTitle: BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage ModelsAuthor: Jiahui Yu, Pengchong Jin, Hanxiao Liu, Gabriel Ben

2021-09-17 10:11:43 273

原创如何更好地调整学习率？

【GiantPandaCV导读】learning rate对模型调优重要性不言而喻，想到超参数调优第一个可能想到的方法就是网格搜索Grid Search，但是这种方法需要大量的计算资源。之前使用fastai的时候发现其集成了一个功能叫lr_finder(), 可以快速找到合适的学习率，本文就主要分析这个15年就提出来的技术Cyclical Learning Rates。链接：https://arxiv.org/abs/1506.011861. 前言一般学习率可以人工设置，根据经验进行设置。通常会尝试

2021-07-06 09:35:42 3842 5

原创【神经网络架构搜索】ProxylessNAS直接在ImageNet上搜索

【GiantPandaCV导语】这篇是MIT韩松实验室发布的文章，是第一个直接在ImageNet上进行搜索的NAS算法，并且提出了直接在目标硬件上对latency进行优化的方法。相比于同期算法NASNet、MnasNet等，搜索代价降低了200倍。0. InfoTitle: ProxylessNAS: Direct Neural Architecture Search On Target Task and HardwareAuthor: MIT韩松团队Link: https://arxiv.org/

2021-07-01 11:15:47 318

原创 ICLR 2021 NAS 相关论文(包含Workshop)

ICLR 2021 Workshop 接收Measuring Uncertainty through Bayesian Learning of Deep Neural Network StructureZhijie Deng, Yucen Luo and Jun Zhu PDFAutoHAS: Efficient Hyperparameter and Architecture SearchXuanyi Dong, Mingxing Tan, Adams Yu, Daiyi Peng, Bog

2021-06-22 09:40:03 768

原创 CVPR2021 NAS相关论文链接

Neural Architecture Search with Random LabelsLandmark Regularization: Ranking Guided Super-Net Training in Neural Architecture SearchAttentiveNAS: Improving Neural Architecture Search via AttentiveFBNetV3: Joint Architecture-Recipe Search Using Predict.

2021-06-22 09:15:55 376

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

使用mixedprecision复现ResNet50在ImageNet上的精度.docx

How TO Read Scientific Paper.pdf

keypoints.exe

ffmpeg-20200403-52523b6-win64-static.zip

Feem_v4.3.0_beta_Windows_Installer.exe

AsciidocFX_Windows.exe

DarkLabel1.3_part1.zip

空空如也