深度学习:CS231n学习笔记Lecture11~15

前言

本文主要记录了斯坦福大学深度学习课程CS231n的Lecture11~15的学习笔记,若有错误之处还请谅解

一、物体检测和分割

物体检测模型可以分为单步模型两步模型,其中单步模型指没有独立地、显示地提取候选区域,直接由输入图像得到其中存在的物体的类别和位置信息的模型,在计算效率上有优势,典型的单步模型有:OverFeat、SSD(Single Shot multibox-Detector )、YOLO(You Only Look Once)等;两步模型指有独立的,显示的候选区域提取过程,即先在输入图像上筛选出一些可能存在物体的候选区域,然后针对每个候选区域,判断其是否存在物体,如果存在,就给出物体的类别和位置修正信息,在检测精度上有优势,典型的两步模型有:R-CNN、SPPNet、Fast R-CNN、Faster R-CNN、R-FCN、Mask R-CNN等

R-CNN:主要思路是使用无监督的选择性搜索方法将输入图像中具有相似的颜色直方图特征的区域进行递归合并,产生大量的候选区域,然后从输入图像中截取这些候选区域对应的图像,将其裁剪缩放至合适的尺寸,并送入一个CNN提取的网络中提取特征,最后再送入一个SVM分类器中进行分类和非极大值抑制操作即可得到最终结果,如下图所示可以概括R-CNN的整个过程:
在这里插入图片描述

Fast R-CNN:Fast R-CNN通过卷积网络得到图像的高分辨率特征映射,切分图像的像素,基于备选区域投影到卷积特征映射,从中提取属于备选区域的卷积块.然后用兴趣区域池化层(ROI pooling layer)来使卷积块变为固定尺寸,输入全连接层进行分类.同样有一个多任务损失,需要基于全局反向传播同时学习.它可以重复运用卷积计算,因此时间主要消耗在寻找备选区域。
在这里插入图片描述

Faster R-CNN:让卷积网络去预测备选区域,其余与Fast R-CNN相同.神经网络同时处理四件事:备选区域是否是待识别物体,校正包围盒,最终物体识别的损失,最终包围盒补偿的损失
在这里插入图片描述

Mask R-CNN:Mask R-CNN将整张输入图像送入卷积网络和训练好的候选框生成网络,然后将候选框投射到卷积特征图上,然后产生两个分支,一个预测出分类类别分数和边界框的坐标,另一个是一个语义分割的微型网络。
在这里插入图片描述

二、可视化和理解

特征可视化:对第一层卷积层可视化,得到的特征图像一般是不同颜色,不同角度的有向边.但是对较深的卷积层可视化得到的图像则没有明显含义,降维(如t-SNE,PCA)可以将高维特征映射为二维图像,排除实验用平均像素遮挡图像中的一部分,然后观察图像分类概率的变化值,得到概率热力图.由此可以判断图像中的哪些部分对分类起关键作用,显著图(Saliency Map)对每个像素做轻微扰动,然后计算像素对分类预测概率的影响,从而得到哪些像素是影响分类的关键部分,梯度上升(Gradient Ascent)修正训练的神经网络的权重,并改变图像的某些像素,来最大化某些中间神经元和类的分值.为了让生成图像符合自然图像,需要加入正则项(图像的L2范数,高斯模糊处理)。

风格迁移:提取输入图像通过神经网络运行到某一层,接着进行反向传播并且设置该层的梯度等于激活值,然后反向传播到图像并不断更新图像;人工纹理合成算法是将特征转换为Gram矩阵,然后使得两张图像Gram矩阵最相似,在实际应用的过程中,往往会将多层网络的Gram矩阵相似性都考虑进最终结果。
在这里插入图片描述

三、注意力机制

自注意力:是一种在计算同一序列表示时,权重和序列的位置相关机制,被证明在机器阅读理解,抽象概要和图片描述生成中非常有效。自注意力机制被应用在图片生成描述任务中。图片首先被编码,然后输入到带有自注意力机制的RNN网络中,来学习图片各个特征与描述中每个词之前的映射关系。注意力权重的可视化清晰地的展示了模型每关注一部分特征都会输出一个词。
在这里插入图片描述

Multi-head自注意力机制:multi-head注意力机制借助尺度化的点积注意力机制进行并行化多次计算。每个独立的注意力输出通过简单拼接并线性的转换到指定的维度空间。
在这里插入图片描述

四、Transformer

以下主要是Transformer编码解码模型的主要架构
在这里插入图片描述
在这里插入图片描述

**DEtection TRansformer (DETR)**是Facebook研究团队巧妙地利用了Transformer 架构开发的一个目标检测模型。DETR模型由一个预训练的CNN骨干(如ResNet)组成,它产生一组低维特征集。这些特征被格式化为一个特征集合并添加位置编码,输入一个由Transformer组成的编码器和解码器中,和原始的Transformer论文中描述的Encoder-Decoder的使用方式非常的类似。解码器的输出然后被送入固定数量的预测头,这些预测头由预定义数量的前馈网络组成。每个预测头的输出都包含一个类预测和一个预测框。损失是通过计算二分匹配损失来计算的。如下图所示为其基本的结构:
在这里插入图片描述

五、生成对抗模型

此部分内容在前面的笔记中已详细介绍,此处不再细讲,Here生成模型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值