哈工大第四次作业

别了，。。

已于 2023-04-16 16:08:41 修改

阅读量90

点赞数

文章标签：目标检测计算机视觉深度学习

于 2023-04-16 16:00:49 首次发布

本文链接：https://blog.csdn.net/biela/article/details/130180416

版权

目标检测问题
目标检测是在给定的图片中精确找到物体所在位置，并标注出物体的类别。物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，并且物体还可以是多个类别。

YOLO网络结构概略图
在这里插入图片描述
YOLO官方的模型结构图

YOLO v1在PASCAL VOC数据集上进行的训练，因此输入图片为448 × 448 × 3。实际中如为其它尺寸，需要resize或切割成要求尺寸
YOLO模型处理：𝟕 × 𝟕网格划分
将图片分割为 𝑆2个grid(𝑆 = 7)，每个grid cell的大小都是相等的
每个格子都可以检测是否包含目标
YOLO网络输出
输出是一个7 × 7 × 30的张量。对应7 × 7个cell
每个cell对应2个包围框(bounding box, bb)，预测不同大小和宽高比，对应检测不同目标。每个bb有5个分量，分别是物体的中心位置(𝑥, 𝑦)和它的高(ℎ) 和宽 (𝑤) ，以及这次预测的置信度。
包围框与置信度
我们有 𝑠2个框，每个框的bb个数为𝐵，分类器可以识别出𝐶种不同的物体，那么所有整个ground truth的长度为𝑆 × 𝑆 × (𝐵 × 5 + 𝐶)
处理细节——归一化
四个关于位置的值，分别是𝑥, 𝑦, ℎ和𝑤，均为整数，实际预测中收敛慢因此，需要对数据进行归一化，在0-1之间。
处理细节——置信度
置信度计算公式：在这里插入图片描述
Pr(𝑜𝑏𝑗)是一个grid有物体的概率
IOU是预测的bb和真实的物体位置的交并比
YOLO损失函数

训练与NMS
NMS核心思想是：选择得分最高的作为输出，与该输出重叠的去掉，不断重复这一过程直到所有备选处理完。

首先丢弃概率小于预定IOU阈值（例如0.5）的所有边界框；对于剩余的边界框：
选择具有最高概率的边界框并将其作为输出预测；
计算 “作为输出预测的边界框”，与其他边界框的相关联IoU值；舍去IoU大于阈值的边界框；其实就是舍弃与“作为输出预测的边界框” 很相近的框框。
重复步骤2，直到所有边界框都被视为输出预测或被舍弃

语义分割
语义分割：找到同一画面中的不同类型目标区域
语义分割目标；对图中每一个像素进行分类，得到对应标签
FCN网络结构
在这里插入图片描述
网络结构分为两个部分：全卷积部分和反卷积部分。全卷积部分借用了一些经典的CNN网络，并把最后的全连接层换成卷积，用于提取特征，形成热点图；反卷积部分则是将小尺寸的热点图上采样得到原尺寸的语义分割图像。
卷积部分
在这里插入图片描述
反卷积部分：跳级结构

循环神经网络与NLP
数据处理基础
文本处理
第一步：文本切分 (tokenization)
给定文本片段，如：
S = “… to be or not to be…”.
将文本切分为单词序列：
L = […, to, be, or, not, to, be, …],
第二步：统计词频
创建一个字典(实际中经常使用Hash表) 进行词频统计
初始字典为空
遍历文本，并按如下更新字典：
如果单词不再字典中，加入该单词 (𝑤, 1)否则将其词频加1
之后，按照词频降序进行排序
将词频索引化
如果词汇太多，则只保留排序在前的k个单词 (如取𝑘 = 10000)
第三步：独热编码
将每一个词映射到索引号上
需要时，将索引转换为独热编码
词典上没有的词（低频词或拼写错误，直接忽略，或编码为0）

文本预处理与词嵌入
一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。我们将解析文本的常见预处理步骤。这些步骤通常包括：
1.将文本作为字符串加载到内存中。
2.将字符串切分为词元（如单词和字符）。
3.建立一个字典，将拆分的词元映射到数字索引。
4.将文本转换为数字索引序列，方便模型操作。
第一步：读取数据集
第二步：词汇切分
第三步：构建词索引表
打印前几个高频词及索引，将每一条文本行转换成一个数字索引列表
词嵌入（word embedding)
将独热向量映射为低维向量
在这里插入图片描述
原始向量：𝑣维；映射后：𝑑维，𝑑 ≪ 𝑣；
映射矩阵：𝑑 × 𝑣，根据训练数据学习得到