论文学习总结
文章平均质量分 93
小风_
致力于严谨、有趣的AI算法
展开
-
SegNeXt学习笔记
阐述了近期基于Transformer由于其具编码空间信息的自注意力而在语义分割领域占据重要位置本文展示了卷积注意力在编码上下文信息上比transformer自注意力更有效发现了导致语义分割性能提升的几个关键因素SegNeXt仅用少量的参数,即可实现在VOC2012上90.6%的mIoU,代码开放经历了早期FCN、DeepLab系列,到近期基于Transformer的模型,如SETR、SegFormer强主干网络。例如Transformer主干网络比基于CNN更强。多尺度信息交互。原创 2022-10-24 09:50:30 · 5491 阅读 · 1 评论 -
基于深度学习的目标检测的更新迭代总结(持续更新ing)
基于深度学习的目标检测总结原创 2022-07-06 23:20:29 · 647 阅读 · 0 评论 -
深度学习模型压缩与加速技术(七):混合方式
深度学习模型压缩与加速技术(一):参数剪枝深度学习模型压缩与加速技术(二):参数量化深度学习模型压缩与加速技术(三):低秩分解深度学习模型压缩与加速技术(四):参数共享深度学习模型压缩与加速技术(五):紧凑网络深度学习模型压缩与加速技术(六):知识蒸馏深度学习模型压缩与加速技术(七):混合方式A:压缩参数 B:压缩结构常用模型压缩与加速技术的组合,就是混合方式。混合方式能够综合各类压缩与加速方法的优势,进一步加强了压缩与加速效果,将会是未来在深度学习模型压缩与加速领域的重要研究方向。......原创 2022-07-05 16:27:14 · 727 阅读 · 0 评论 -
《Dynamic Routing Between Capsules》论文学习总结
author: Geoffrey E. Hinton etc.years: 2017institution: google brain★论文相关技术已申请专利AbstractA capsule(胶囊) is a group of neurons, whose activity vector(激活向量) represents the instantiation parameters(实例化参数) of a specific type of entity(特定类型的实体) such as an o原创 2022-05-25 23:36:35 · 219 阅读 · 1 评论 -
Document Layout Analysis: A Comprehensive Survey 2019论文学习总结
论文题目Document Layout Analysis: A Comprehensive Survey 2019前言文档版面分析(DLA)是文档理解的预处理步骤,其负责检测和标注文档内的物理结构。DLA有很多重要的应用,例如文档检索、问本分类,文字识别等,其目的是通过识别文档同类块和确定他们之间的关系,以此来简化后续的分析和识别阶段。DLA包含几个阶段,根据文档的布局和最终分析的目标不同,DLA的方法也不同。在此方面,一个能够适应所有类型的文档布局或满足所有分析目标的通用DLA算法还未开发出来。DL原创 2022-05-24 23:57:54 · 928 阅读 · 0 评论 -
深度学习模型压缩与加速技术(六):知识蒸馏
目录总结知识蒸馏定义特点1.学生模型的网络架构2.教师模型的学习信息训练技巧其他场景参考文献深度学习模型的压缩和加速是指利用神经网络参数的冗余性和网络结构的冗余性精简模型,在不影响任务完成度的情况下,得到参数量更少、结构更精简的模型。被压缩后的模型计算资源需求和内存需求更小,相比原始模型能够满足更加广泛的应用需求。在深度学习技术日益火爆的背景下,对深度学习模型强烈的应用需求使得人们对内存占用少、计算资源要求低、同时依旧保证相当高的正确率的“小模型”格外关注。利用神经网络的冗余性进行深度学习的模型压缩和加原创 2022-04-25 16:34:52 · 3233 阅读 · 0 评论 -
深度学习模型压缩与加速技术(五):紧凑网络
文章目录总结参数共享定义特点1.卷积核级别新型卷积核简单filter组合2.层级别3.网络结构级别参考文献深度学习模型的压缩和加速是指利用神经网络参数的冗余性和网络结构的冗余性精简模型,在不影响任务完成度的情况下,得到参数量更少、结构更精简的模型。被压缩后的模型计算资源需求和内存需求更小,相比原始模型能够满足更加广泛的应用需求。在深度学习技术日益火爆的背景下,对深度学习模型强烈的应用需求使得人们对内存占用少、计算资源要求低、同时依旧保证相当高的正确率的“小模型”格外关注。利用神经网络的冗余性进行深度学习原创 2022-04-25 14:42:27 · 3249 阅读 · 0 评论 -
深度学习模型压缩与加速技术(四):参数共享
文章目录总结参数共享定义特点1.循环矩阵2.聚类共享3.其他方法参考文献深度学习模型的压缩和加速是指利用神经网络参数的冗余性和网络结构的冗余性精简模型,在不影响任务完成度的情况下,得到参数量更少、结构更精简的模型。被压缩后的模型计算资源需求和内存需求更小,相比原始模型能够满足更加广泛的应用需求。在深度学习技术日益火爆的背景下,对深度学习模型强烈的应用需求使得人们对内存占用少、计算资源要求低、同时依旧保证相当高的正确率的“小模型”格外关注。利用神经网络的冗余性进行深度学习的模型压缩和加速引起了学术界和工业原创 2022-04-25 11:18:34 · 2222 阅读 · 0 评论 -
深度学习模型压缩与加速技术(二):参数量化
目录总结参数量化参数量化定义参数量化特点1.二值化二值化权重二值化权重与激活函数2.三值化3.聚类量化4.混合位宽手工固定自主确定训练技巧参考文献深度学习模型的压缩和加速是指利用神经网络参数的冗余性和网络结构的冗余性精简模型,在不影响任务完成度的情况下,得到参数量更少、结构更精简的模型。被压缩后的模型计算资源需求和内存需求更小,相比原始模型能够满足更加广泛的应用需求。在深度学习技术日益火爆的背景下,对深度学习模型强烈的应用需求使得人们对内存占用少、计算资源要求低、同时依旧保证相当高的正确率的“小模型”格原创 2022-04-24 17:43:24 · 6127 阅读 · 0 评论 -
深度学习模型压缩与加速技术(三):低秩分解
目录总结低秩分解定义特点1.二元分解2.多元分解参考文献深度学习模型的压缩和加速是指利用神经网络参数的冗余性和网络结构的冗余性精简模型,在不影响任务完成度的情况下,得到参数量更少、结构更精简的模型。被压缩后的模型计算资源需求和内存需求更小,相比原始模型能够满足更加广泛的应用需求。在深度学习技术日益火爆的背景下,对深度学习模型强烈的应用需求使得人们对内存占用少、计算资源要求低、同时依旧保证相当高的正确率的“小模型”格外关注。利用神经网络的冗余性进行深度学习的模型压缩和加速引起了学术界和工业界的广泛兴趣,各原创 2022-04-25 09:14:35 · 8569 阅读 · 1 评论 -
深度学习模型压缩与加速技术(一):参数剪枝
目录总结参数剪枝定义分类非结构化剪枝结构化剪枝1.Group级别剪枝2.filter级别剪枝参考文献深度学习模型的压缩和加速是指利用神经网络参数的冗余性和网络结构的冗余性精简模型,在不影响任务完成度的情况下,得到参数量更少、结构更精简的模型。被压缩后的模型计算资源需求和内存需求更小,相比原始模型能够满足更加广泛的应用需求。在深度学习技术日益火爆的背景下,对深度学习模型强烈的应用需求使得人们对内存占用少、计算资源要求低、同时依旧保证相当高的正确率的“小模型”格外关注。利用神经网络的冗余性进行深度学习的模型原创 2022-04-21 16:15:46 · 4711 阅读 · 1 评论 -
图像分类白盒对抗攻击技术总结
目录1.对抗攻击背景知识2.白盒攻击技术2.1 基于直接优化得攻击方法2.1.1 基于 Box-constrained L-BFGS 的攻击2.1.2 C&W 攻击2.2 基于梯度优化的攻击方法2.2.1 FGSM 攻击(基于一步梯度计算的对抗样本生成算法)2.2.2 I-FGSM 攻击(迭代的FGSM算法)2.2.3 PGD攻击(迭代的 FGSM 算法,与 I-FGSM 攻击类似)2.2.4 MI-FGSM 攻击(基于动量的迭代生成对抗样本的 MI-FGSM 算法)2.3 基于决策边界分析的攻击原创 2022-04-20 16:54:42 · 5785 阅读 · 1 评论 -
【手势姿态估计】综述
手部姿态估计相关综述的总结什么是手部姿态估计人机交互中的手部交互,可以分为手势识别和手部姿态估计两大技术,手势识别可以认为是模式识别的问题,手部姿态估计则可以认为是回归问题,目标是在三维空间中恢复手部的完整运动结构。具体的,手部姿态估计是指从视频或图像中精确定位到手部关节点的位置,从而根据这些位置关系推断出相应的手部姿态。演进or发展1.什么推动了手部姿态的发展:比赛(Hands 2017\2019)市场需求或应用:人机交互、增强技术、虚拟现实、手势识别、机器人抓取、智能设备,手语识别计算原创 2021-07-15 17:00:56 · 8865 阅读 · 2 评论 -
Learning Deep Features for Discriminative Localization(2016)(论文学习总结)
原创 2020-10-31 23:51:30 · 173 阅读 · 0 评论 -
DocUNet(CVPR2018)(论文学习总结)
原创 2020-10-31 23:50:37 · 1031 阅读 · 0 评论 -
弱监督语义分割和边界探索(2020 ECCV)(论文学习总结)
原创 2020-10-31 23:48:50 · 411 阅读 · 0 评论 -
金字塔场景解析网络(Pyramid Scene Parsing Network)(2017)(论文学习总结)
原创 2020-10-31 23:47:34 · 310 阅读 · 0 评论 -
YOLOv3: An Incremental Improvement(YOLOv3)学习笔记
摘要:1.提出新的YOLO,320x320输入,22ms,28.2mAP2.在Titan X上实现了57.9AP50,速度51ms/张介绍:论文中的介绍部分没有什么特别重点的部分,提到这篇论文算是一篇科技报告。细节:1.bbox预测。跟yolov2一样,使用了k-means方法对anchor box的个数和长宽进行统计计算,yolov2得到的是5个,yolov3是3个。在feature map中,每个网格都会预测3个bbox,每个bbox要预测4个坐标信息和1个目标分数值(置信度,是否物体)原创 2020-08-08 16:11:00 · 277 阅读 · 0 评论 -
YOLO9000: Better, Faster, Stronger(YOLOv2)学习笔记
摘要:1.提出YOLO9000,可以检测超过9000个对象类别。对YOLO进行了各种改进,这两种方法都是新的从以前的工作中提取。2. 使用一种新的、多尺度的训练方法,相同的YOLOv2模型可以运行在不同的大小,提供了一个简单的权衡之间的速度和准确性。3.YOLOv2获得67mAP和76.8mAP在VOC2007。 在40FPS时,YOLOv2获得78.6mAP,超过了Fa这样的最先进的方法空间RCNN与ResNet和SSD,同时仍然运行得更快。4.提出了一种目标检测与分类联合训练的方法。 允许YOL原创 2020-08-07 19:46:44 · 264 阅读 · 0 评论 -
You Only Look Once: Unified, Real-Time Object Detection(YOLOv1)论文学习笔记
摘要:提出了YOLO,将目标检测归为了回归问题,可以在完整图像中进行预测框和类别概率的计算,YOLO是一个端到端的预测框架非常快,可以达到45fps,而对于更小的版本,Fast YOLO,可以达到155fps,且依旧保持较高的mAP相比其他预测框架,YOLO可能会预测较多错误的预测框,但很少会有假阳性的出现总体上要比其他预测框架要好,比如DPM,R-CNN等介绍:为了检测目标,一些检测器在图像的不同位置和尺度上进行检测和分类,DPM(Deformable parts models)则是采用原创 2020-08-03 20:21:09 · 268 阅读 · 0 评论 -
Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recur(ION)学习笔记
题目:Inside-Outside Net: Detecting Objects in Context With Skip Pooling and Recurrent Neural Networks摘要:上下文和多尺度表示对于精确识别任务很重要inside-outside net是一种利用感兴趣区域内外信息的目标检测网络,利用空间递归神经网络将感兴趣区域以外的上下文信息进行整合,使用skip pooling在多尺度和层次上提取特征信息在PASCAL VOC 2012从最先进的73.9%提高到了77原创 2020-08-02 11:50:25 · 1808 阅读 · 2 评论 -
CNN网络模型大总结【持续更新中...】
本文将总结从LeNet5开始到现在,具有代表性或具有创新意义的CNN网络模型架构。本文特点是,一、总结内容非常精简,不详细,适于想快速了解的人进行阅读;二、附带有相关网络图,来源于论文或网络,直观不枯燥;三、附带论文链接地址,需要详细学习该网络的人可直接点开下载;四、附带pytorch代码实现,代码来源于网络或自己写…目录LeNet5网络结构解析Pytorch实现AlexNet网络结构解析创新点Pytorch实现VGG网络结构解析创新点:Pytorch实现NiN网络结构解析创新点Pytorch.原创 2020-07-17 10:28:06 · 5991 阅读 · 1 评论 -
Dense Extreme Inception Network: Towards a Robust CNN Model for Edge Detection(DexiNet)论文学习笔记
一、介绍:1.有两个贡献,一是提出DexiNet,二是提出新的大规模数据集2.现在的基于CNN方法的边缘检测有很多,像DeepEdge,HED,RCF,BDCN等, 这些方法的成功主要是由CNNs在不同的尺度上应用于一组大的图像,以及训练正则化技术。3.以前的数据集都或多或少有些毛病,比如,边缘信息不完整,使得训练困难等,本文提出新的数据集,BIPED,包含有非常详细的边缘标注信息4.DexiNet全称是,用于边缘检测的密集感知网络(Dense Extreme Inception Network f原创 2020-07-11 19:24:05 · 3146 阅读 · 6 评论 -
Deep Crisp Boundaries(CED)论文学习笔记
介绍卷积网络得到的边缘检测图,是高度“正确”,但并不那么“清晰”的,这是由于,首先,在更具鉴别性的卷积顶层,特征的空间分辨率急剧降低,导致边缘输出模糊,再次,全卷积会导致相邻像素的相似应答(线性插值方式),因此也会影响细边缘的产生。提出了一种新的细化体系结构,灵感来自最近在密集图像标记方面的进展,细化路径为网络增加了额外的非线性,进一步减少了相邻像素内边缘响应之间的相关性。本文对ConvNet的边缘图进行了系统的研究。结果表明,ConvNet具有良好的边缘像素分类能力,但定位能力较差;本文将细化方原创 2020-07-04 23:30:01 · 1359 阅读 · 2 评论 -
Richer Convolutional Features for Edge Detection(RCF论文学习笔记)
介绍:做边缘检测(edge detection)的网络,实质上来讲,应该算是HED网络的改进作者提出RCF,将所有卷积特征封装成更具鉴别性的表示,很好地利用了丰富的特征层次结构,并且可以通过反向传播进行训练在BSDS500上实现SOTA结果,0.811的ODS F-measure和8fps,快速版的可以实现0.806和30fps边缘检测是计算机视觉中的一个核心低级问题传统的边缘检测方法先是提取图像的颜色、纹理、亮度或梯度等,然后使用复杂的学习范式对边缘和非边缘的像素进行分类低级信息在语义上具有原创 2020-07-02 15:38:21 · 1420 阅读 · 0 评论 -
【手写汉字识别】基于深度学习的脱机手写汉字识别技术研究
写在前面最近一段时间在为本科毕业设计做一些知识储备,方向与手写识别的系统设计相关,在看到一篇2019年题为《基于深度学习的脱机手写汉字识别技术研究》的工学硕士论文后,感觉收获比较大,准备把自己的总结和一些想法记录下来,本篇文章只记录本人感兴趣部分一、发展1966年,IBM 公司R.Casey、G.Nagy发表了关于印刷汉字识别的论文,使用方法是模板匹配,1000个汉字1977年,日本东芝...原创 2020-03-06 14:53:52 · 5390 阅读 · 7 评论