改进深度学习网络的几个思路

由于要优化网络,老师给提供的几个思路:

在这里插入图片描述

个人学习后的几个认知:

1.联级特征融合模块

主要用于残差网络最后的残差块融合上

在这里插入图片描述

其中 R5 是经过 Res5 通过 3×3 的卷积获得的特征图,该特征图保持空间分辨率不变,并将通道的数量变成256

Res3、Res4、Res5为残差神经网络的几个残差块

2.GCN全局卷积网络(Global Convolutional Network)

  1. 问题提出

当前网络的设置倾向于使用小尺寸滤波器,在相同的计算代价下效果与大核的效果相同,但是后者在同时处理分类和定位任务时非常关键。
分类和定位任务“天生”矛盾,对于分类任务来说,其要求网络具有不变性,即在各种变化和旋转之后,类别仍然一致;对于定位任务则相反,要求其对变换敏感。

  1. 解决方案

为了克服上面提到的问题,提出了遵循下面两个准则的Global Convolutional Network(GCN)

  • 对于分类任务:使用较大尺寸的核函数使得特征图和逐像素点分类器之间能够建立密集连接
  • 对于定位任务:使用全卷积,剔除全连接和全局池化
    具体地:
  • 为了使全局卷积便于执行,文中采用对称可分离的大滤波器来减少参数并降低计算代价;
  • 设计了边界精细模块集成到网络中,精细化物体边界,并能够端到端的训练;
    基于此,论文的主要贡献在于:
  • 提出全局卷积网络。减缓定位任务和分类任务的矛盾
  • 提出边界精细模块使得物体边界处的定位更加精细
  1. 网络架构

3.1 GCN:Global Convolutional Network

对于分类任务,模型需要抽取图像深层的特征(小尺寸的特征图),空间维度上比较粗糙,但能够使分类器和特征图通过全连接层建立密集连接;而对于定位任务,模型需要尽可能大的特征图来编码空间信息。当前的语义分割模型都着重于后者,使得分类器可能难以捕获某些关键的特征从而影响分类,出现下面的问题:图像尺寸变大后感受区域不能覆盖整个物体:

在这里插入图片描述

3.2 Boundary RefineMent Block

该模块设计为残差模块,具体如下图所示:

在这里插入图片描述

全局卷积网络,搜到的东西不多,就一篇,和BR出自同一篇文章

https://zhuanlan.zhihu.com/p/51670413

https://zhuanlan.zhihu.com/p/41077177

3.GCN(图卷积)

https://distill.pub/2021/gnn-intro/

4.多尺度输入

2014年在《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》,这篇paper主要的创新点在于提出了空间金字塔池化。

提出的原因:

在SPP提出之前,深度学习网络主要是以R-CNN为主,它有两大缺点:
1、通常需要输入固定大小的图片来进行训练和测试。
对于大小不一的图片,需要经过裁剪,或者缩放等一系列操作,将其变为统一的尺寸。但是这样往往会降低识别检测的精度。
2、计算量较大,严重影响速度
R-CNN预设1000~2000个候选区域 (采用Selective Search 方法),并分别在每个候选区域进行特征提取。这个想想就害怕,因为图片上有些区域会被重复采样多次。

具体原理:

现在从左到右来看:
蓝色的图1——我们把一张完整的图片,分成了16个块,也就是每个块的大小就是(w/4,h/4);
绿色的图2,划分了4个块,每个块的大小就是(w/2,h/2);
黑色的图3,把整张图片作为了一个块,也就是块的大小为(w,h)
空间金字塔最大池化的过程,其实就是从这21个图片块中,分别计算每个块的最大值(局部max-pooling)。通过SPP,我们就把一张任意大小的图片转换成了一个固定大小的21维特征(当然你可以设计其它维数的输出,增加金字塔的层数,或者改变划分网格的大小)。上面的三种不同刻度的划分,每一种刻度我们称之为:金字塔的一层,每一个图片块大小我们称之为:windows size了。如果你希望,金字塔的某一层输出n*n个特征,那么你就要用windows size大小为:(w/n,h/n)进行池化了。

解决的问题:

1、多尺度输入
当我们有很多层网络的时候,当网络输入的是一张任意大小的图片,这个时候我们可以一直进行卷积、池化,直到网络的倒数几层的时候,也就是我们即将与全连接层连接的时候,就要使用金字塔池化,使得任意大小的特征图都能够转换成固定大小的特征向量,这就是空间金字塔池化的奥义(多尺度特征提取出固定大小的特征向量)。
2、计算量的减少
存在spp网络的神经网络(如衍生出了之后的fast R-CNN)虽然也需要预设1000~2000个候选区域,但只需要对每张图片进行一次采样特征提取,再由特征图来确定每个候选区域的特征图,因此大大减小了计算量。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一、本书的内容 目前,市面上有关计算机算法的书很多,有些叙述严谨但不全面,另外一些则是容量很大但不够严谨。本书将叙述的严谨性以及内容的深度和广度有机地结合了起来。第1版推出后,即在世界范围内受到了广泛的欢迎,被各高等院校用作多种课程的教材和业界的标准参考资料。它深入浅出地介绍了大量的算法及相关的数据结构,以及用于解决一些复杂计算问题的高级策略(如动态规划、贪心算法、平摊分析等),重点在于算法的分析和设计。对于每一个专题,作者都试图提供目前最新的研究成果及样例解答,并通过清晰的图示来说明算法的执行过程。. 本书是原书的第2版,在第1版的基础之上增加了一些新的内容,涉及算法的作用、概率分析和随机化算法、线性规划,以及对第1版中详尽的、几乎涉及到每一小节的修订。这些修订看似细微,实际上非常重要。书中引入了“循环不变式”,并贯穿始终地用来证明算法的正确性。在不改动数学和分析重点的前提下,作者将第1版中的许多数学基础知识从第一部分移到了附录中。 二、本书的特点 本书在进行算法分析的过程中,保持了很好的数学严谨性。书中的分析和设计可以被具有各种水平的读者所理解。相对来说,每一章都可以作为一个相对独立的单元来教授或学习。书中的算法以英语加伪代码的形式给出,只要有一点程序设计经验的人都能读懂,并可以用任何计算机语言(如C/C++和Java等)方便地实现。在书中,作者将算法的讨论集中在一些比较现代的例子上,它们来自分子生物学(如人类基因项目)、商业和工程等领域。每一小节通常以对相关历史素材的讨论结束,讨论了在每一算法领域的原创研究。 本书的特点可以概括为以下几个方面: 1.概念清晰,广度、深度兼顾。 本书收集了现代计算机常用的数据结构和算法,并作了系统而深入的介绍。对涉及的概念和背景知识都作了清晰的阐述,有关的定理给出了完整的证明。 2.“五个一”的描述方法。 本书以相当的深度介绍了许多常用的数据结构和有效的算法。编写上采用了“五个一”,即一章介绍一个算法、一种设计技术、一个应用领域和一个相关话题。.. 3.图文并茂,可读性强。 书中的算法均以通俗易懂的语言进行说明,并采用了大量插图来说明算法是如何工作的,易于理解。 4.算法的“伪代码”形式简明实用。 书中的算法均以非常简明的“伪代码”形式来设计,可以很容易地把它转化为计算机程序,直接应用。 注重算法设计的效率,对所有的算法进行了仔细、精确的运行时间分析,有利于进一步改进算法。 三、本书的用法 本书对内容进行了精心的设计和安排,尽可能考虑到所有水平的读者。即使是初学计算机算法的人,也可以在本书中找到所需的材料。 每一章都是独立的,读者只需将注意力集中到最感兴趣的章节阅读。 1.适合作为教材或教学参考书。 本书兼顾通用性与系统性,覆盖了许多方面的内容。本书不但阐述通俗、严谨,而且提供了大量练习和思考题。针对每一节的内容,都给出了数量和难度不等的练习题。练习题用于考察对基本内容的掌握程度,思考题有一定的难度,需进行精心的研究,有时还通过思考题介绍一些新的知识。 前言回到顶部↑本书提供了对当代计算机算法研究的一个全面、综合性的介绍。书中给出了多个算法,并对它们进行了较为深入的分析,使得这些算法的设计和分析易于被各个层次的读者所理解。力求在不牺牲分析的深度和数学严密性的前提下,给出深入浅出的说明。. 书中每一章都给出了一个算法、一种算法设计技术、一个应用领域或一个相关的主题。算法是用英语和一种“伪代码”来描述的,任何有一点程序设计经验的人都能看得懂。书中给出了230多幅图,说明各个算法的工作过程。我们强调将算法的效率作为一种设计标准,对书中的所有算法,都给出了关于其运行时间的详细分析。 本书主要供本科生和研究生的算法或数据结构课程使用。因为书中讨论了算法设计中的工程问题及其数学性质,因此,本书也可以供专业技术人员自学之用。 本书是第2版。在这个版本里,我们对全书进行了更新。所做的改动从新增了若干章,到个别语句的改写。 致使用本书的教师 本书的设计目标是全面、适用于多种用途。它可用于若干课程,从本科生的数据结构课程到研究生的算法课程。由于书中给出的内容比较多,只讲一学期一般讲不完,因此,教师们应该将本书看成是一种“缓存区”或“瑞典式自助餐”,从中挑选出能最好地支持自己希望教授的课程的内容。 教师们会发现,要围绕自己所需的各个章节来组织课程是比较容易的。书中的各章都是相对独立的,因此,你不必担心意想不到的或不必要的各章之间的依赖关系。每一章都是以节为单位,内容由易到难。如果将本书用于本科生的课程,可以选用每一章的前面几节内容;在研究生课程中,则可以完整地讲授每一章。 全书包含920多个练习题和140多个思考题。每一节结束时给出练习题,每一章结束时给出一些
Geo.AI 当ArcGIS遇见人工智能 当ArcGIS遇见人工智能全文共35页,当前为第1页。 人工智能带来巨大的行业机遇 当ArcGIS遇见人工智能全文共35页,当前为第2页。 Geo.AI 空间科学 人工智能 当ArcGIS遇见人工智能全文共35页,当前为第3页。 Geo.AI 算法/模型 空间分析/统计 集成深度学习框架 对接人工智能平台 数据 矢量数据 遥感数据 应用 国土 农业 金融 商业 …… 当ArcGIS遇见人工智能全文共35页,当前为第4页。 数据 包裹登记 税收 基础底图 城市规划 人行道覆盖 矢量数据 影像数据 天然的机器学习样本库 当ArcGIS遇见人工智能全文共35页,当前为第5页。 深度学习训练样本 丰富的样本制作工具 影像数据 矢量数据 数据 当ArcGIS遇见人工智能全文共35页,当前为第6页。 算法与模型 灵活的第三方人工智 能框架及服务 专业的空间 分析工具 当ArcGIS遇见人工智能全文共35页,当前为第7页。 ArcGIS 分类 聚合 空间 分析/统计 1207个 地理处理工具 300+ 机器 学习 16个 最大似然分类 随即森林 支持向量机 空间约束多元聚类 多元聚类 基于密度的聚类 图像分割 热点分析 聚类和异常值分析 时空挖掘分析 预测 经验贝叶斯克立格 面插值 EBK 回归预测 普通最小二乘回归 地理加权回归 基于随机森林的分类与回归 ArcGIS的机器学习工具 当ArcGIS遇见人工智能全文共35页,当前为第8页。 ArcGIS与人工智能平台融合 Microsoft ArcGIS 当ArcGIS遇见人工智能全文共35页,当前为第9页。 Decider numpy 机器 学习 XGBoost 人工智能 自然语言处理 视频游戏行为 人工智能 机器人 计算机视觉 ArcGIS scikit-learn TensorFlow IBM ArcGIS 集成 深度 CNTK Watson学习 ArcGIS与深度学习 当ArcGIS遇见人工智能全文共35页,当前为第10页。 ArcGIS ArcGIS与深度学习框架集成 当ArcGIS遇见人工智能全文共35页,当前为第11页。 SenseRemote 商汤人工智能遥感解译 马灵霞 高级产品经理 中国最大的人工智能独角兽企业 当ArcGIS遇见人工智能全文共35页,当前为第12页。 深度学习三大核心要素 海量数据 超级计算 学习算法 当ArcGIS遇见人工智能全文共35页,当前为第13页。 AI在商汤:GPU硬件超算集群 8000块GPU计算卡,10个GPU集群,最大规模连接800块GPU 当ArcGIS遇见人工智能全文共35页,当前为第14页。 Berkeley 出品 对单机多GPU的有限 支持 不支持分布式训练 Facebook 出品 对分布式训练的支持比 较弱 非常灵活,但是以写底 层代码为代价,生产力 低 Google 出品 支持单机多GPU和分 布式训练 显存使用过高,性能 欠佳 商汤科技出品 支持超深网络 超大数据学习及复杂关联 应用 使用开源平台将受制于人 自建平台是实现算法领先的基础 开源平台 商汤自建平台 不支持大数据量的分布式训练 可支持分布式训练,高速低损 不提供最新算法迭代成果 支持更复杂建模,高度伸缩性 ? ? ? 计算效率低、效果不理想 ? 技术发展受制,IP问题等 AI在商汤:自建原创深度学习平台Parrots 当ArcGIS遇见人工智能全文共35页,当前为第15页。 基于VOC、COCO、ImageNet等数据集 上直接finetune的VGG、GoogLeNet、 ResNet等结构网络并不能很好的适用于 遥感数据处理。 不能直接支持遥感多波段、高光谱数据形式; 不能直接支持遥感数据尺寸大的处理特点; 精度差,不能直接满足遥感数据解译特点; 训练耗时长; 处理速度慢; 遥感影像解译的特殊性 当ArcGIS遇见人工智能全文共35页,当前为第16页。 数据普适 设计适用于8bit、16bit 全色、RGB、多光谱、高光谱多 种数据普适模型 遥感专用 设计多种场景专用模型,比如道路、河流类线状地物;云 雪类易混淆面状地物;复杂场景下的飞机、舰船等微小目 标;多时相数据变化检测模型 模型压缩 设计、压缩小模型,在保持应用精度基本不变的情况下, 可以将同一结构下的通用网络压缩提升效率几十到上百倍 模型改进 设计结合传统解译方法新模型,比如增加"面向像素"解 译思路中常用各种指数信息的网络学习;增加"面向对象" 解译思路中常用空间相关性信息的网络学习 Data conv1-2 BN ReLu conv1-1 BN ReLu conv2-2 BN ReLu conv2-1 BN ReLu conv3-2 BN ReLu c
基于弱标签视频数据实现监控视频中的交通事故检测 一、研究目的 本课题为哈工大(深圳)毕业设计,主要基于弱标签视频数据实现监控视频中的交通事故检测,从三种思路实现弱监督交通事故检测,完成算法的定性和定量分析,并基于多实例学习的深度排序回归网络实现最终的交通事故检测,完成端到端的检测系统。 二、研究方法及成果 (1)本文实现了基于三种不同特征学习思路的弱监督交通事故检测方法—— 基于SVM 和视频级整体特征的学习方法,基于唯正常视频与自编码器的特征重构方法以及基于空间自注意力机制和LSTM 网络的帧序列学习方法。接着我们验证了它们在URAD 上的性能,并从定性和定量的角度分析了这些算法的利弊。对于其中基于空间注意力机制的检测算法,我们提出使用隔帧采样和Ranking的方式进行改进,提高了其双类上的检测性能。 (2)通过定性分析和定量实验,本文指出在弱监督交通视频事故检测任务中使用AUC 进行评估时双类到单类所存在的数值落差,并由此提出单类AUC 的评测方法,来更好地刻画算法对于视频中事故位置的定位能力。 (3)本文分别基于C3D 特征与I3D 的RGB 和FLOW 模式下的特征实现了基于多实例学习的深度排序算法,接着验证了几种常见的特征融合手段;然后,我们通过结合Min-Max 归一化和哈达玛积的方式成功融合了RGB 和FLOW 特征下的预测分数,并得到了更高的单类AUC 性能。 (4)本文基于哈达玛积融合后的检测方法实现了一个可用于视频交通事故检测的可视化的端到端系统,其检测速度达43 FPS。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值