哈工大神经网络与深度学习知识总结（四）

lijitt

已于 2023-04-17 21:15:16 修改

阅读量321

点赞数

文章标签：深度学习神经网络

于 2023-04-17 21:10:07 首次发布

本文链接：https://blog.csdn.net/lijitt/article/details/130208402

版权

6.2 YOLO网络

6.2.1 YOLO网络结构

网络结构包含24个卷积层和2个全连接层；其中前20个卷积层用来做预训练，后面4个是随机初始化的卷积层，和2个全连接层。

6.2.2 YOLO网络输入及输出
网络输入：

YOLO v1在PASCAL VOC数据集上进行的训练，因此输入图片为448 × 448 × 3。实际中如为其它尺寸，需要resize或切割成要求尺寸。
将图片分割为 𝑆 2个grid(𝑆 = 7)，每个grid cell的大小都是相等的；每个格子都可以检测是否包含目标；YOLO v1中，每个格子只能检测一种物体（但可以不同大小）

网络输出：
输出是一个7 × 7 × 30的张量。对应7 × 7个cell ，每个cell对应2个包围框(bounding box, bb)，预测不同大小和宽高比，对应检测不同目标。每个bb有5个分量，分别是物体的中心位置(𝑥, 𝑦)和它的高(ℎ) 和宽 (𝑤) ，以及这次预测的置信度。

6.2.3 YOLO处理细节
6.2.3.1 YOLO包围框
有S×S个框，每个框的bb个数为𝐵，分类器可以识别出𝐶种不同的物体，那么所有整个ground truth的长度为𝑆 × 𝑆 × (𝐵 × 5 + 𝐶) YOLO v1中，这个数量是30 ；YOLO v2和以后版本使用了自聚类的anchor box为bb, v2版本为𝐵 = 5, v3中𝐵 =9
6.2.3.2 归一化
四个关于位置的值，分别是 𝑥, 𝑦, ℎ 和 𝑤 ，均为整数，实际预测中收敛慢因此，需要对数据进行归一化，在0-1之间。

6.2.3.3 置信度
置信度计算公式：

Pr(𝑜𝑏𝑗)是一个grid有物体的概率

IOU是预测的bb和真实的物体位置的交并比。

6.2.3.4 训练数据及网络输出

Pr𝑜𝑏𝑗 的ground truth ：三个目标中点对应格子为 1 ，其它为 0

6.2.4 损失函数

YOLO损失函数一共五项

6.2.5 训练与NMS(非极大值抑制）
6.2.5.1 NMS算法要点
首先丢弃概率小于预定IOU阈值（例如0.5）的所有边界框；
对于剩余的边界框：选择具有最高概率的边界框并将其作为输出预测；
计算 “作为输出预测的边界框”，与其他边界框的相关联IoU 值；舍去IoU大于阈值的边界框；其实就是舍弃与“作为输出预测的边界框” 很相近的框框。
重复步骤2，直到所有边界框都被视为输出预测或被舍弃
6.2.5.2 数据集训练
YOLO先使用ImageNet数据集对前20层卷积网络进行预训练，然后使用完整的网络，在PASCAL VOC数据集上进行对象识别和定位的训练和预测
训练中采用了drop out和数据增强来防止过拟合。
YOLO的最后一层采用线性激活函数(因为要回归bb位置)，其它层都是采用Leaky ReLU激活函数：
YOLO V3模型效果

6.3. 语义分割与FCN

6.3.1 语义分割定义及算法发展历史
语义分割：找到同一画面中的不同类型目标区域
基本思想：对图中每一个像素进行分类，得到对应标签

语义分割发展历史

6.3.2 反卷积与反池化
反卷积

反池化（上池化）

6.3.3 FCN具体实现
卷积部分：
FCN中第6、7、8层都是通过 1 × 1 卷积得到的，第6层的输出是 4096 × 7 × 7 ，第7层的输出是 4096 × 7 × 7 ，第8层的输出是 1000 × 7 × 7 ,即1000个大小是 7 × 7 的特征图（称为heatmap）

反卷积部分：

6.3.4 FCN训练结果

6.3.5 FCN评价指标与标注工具
评价指标

常见标注工具

6.4 风格迁移

定义：如果你是一位摄影爱好者，也许接触过滤镜。它能改变照片的颜色样式，从而使风景照更加锐利或者令人像更加美白。但一个滤镜通常只能改变照片的某个方面。如果要照片达到理想中的样式，经常需要尝试大量不同的组合，其复杂程度不亚于模型调参。在本节中，我们将介绍如何使用卷积神经网络自动将某图像中的样式应用在另一图像之上，即风格迁移。这里我们需要两张输入图像，一张是内容图像，另一张是样式图像，我们将使用神经网络修改内容图像使其在样式上接近样式图像。

6.4.1 方法
首先，我们初始化合成图像，例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量，即样式迁移所需迭代的模型参数。
然后，我们选择一个预训练的卷积神经网络来抽取图像的特征，其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。
6.4.2 损失函数
内容损失（content loss）使合成图像与内容图像在内容特征上接近
样式损失（style loss）令合成图像与样式图像在样式特征上接近
总变差损失（total variation loss）则有助于减少合成图像中的噪点。最后，当模型训练结束时，我们输出样式迁移的模型参数，即得到最终的合成图像
内容代价函数：

风格代价函数

总体风格代价函数

6.4.3 小结
样式迁移常用的损失函数由3部分组成：内容损失使合成图像与内容图像在内容特征上接近，样式损失令合成图像与样式图像在样式特征上接近，而总变差损失则有助于减少合成图像中的噪点。
可以通过预训练的卷积神经网络来抽取图像的特征，并通过最小化损失函数来不断更新合成图像。
用格拉姆矩阵表达样式层输出的样式。

6.5人脸识别

6.5.1 Siamese网络

6.5.1.1 代价函数

6.6 视觉应用展望

6.6.1 生成对抗网络

生成对抗网络(GAN)的初始原理十分容易理解，即构造两个神经网络，一个生成器，一个鉴别器，二者互相竞争训练，最后达到一种平衡(纳什平衡)。
GAN 启发自博弈论中的二人零和博弈（two-player game），GAN 模型中的两位博弈方分别由生成式模型（generativemodel，G）和判别式模型（discriminative model，D）充当。
生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好。
判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。

7 循环神经网络与NLP

7.1 数据处理基础

7.1.1 特征编码
使用199维特征向量表达一个人的特征

7.2 文本处理

7.2.1 文本切分

7.2.2 统计词频
创建一个字典( 实际中经常使用 Hash 表 ) 进行词频统计（初始字典为空）

将词频索引化如果词汇太多，则只保留排序在前的k个单词 (如取𝑘 = 10000)
将每一个词映射到索引号上

7.3 文本预处理

一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。我们将解析文本的常见预处理步骤。这些步骤通常包括：
将文本作为字符串加载到内存中
将字符串切分为词元（如单词和字符）
建立一个字典，将拆分的词元映射到数字索引
将文本转换为数字索引序列，方便模型操作
读取数据集

词汇切分
构建词索引表
打印前几个高频词及索引
[('<unk>', 0), ('the', 1), ('i', 2), ('and', 3), ('of', 4),
('a', 5), ('to', 6), ('was', 7), ('in', 8), ('that', 9)]
将每一条文本行转换成一个数字索引列表
文本: ['the', 'time', 'machine', 'by', 'h', 'g', 'wells']
索引: [1, 19, 50, 40, 2183, 2184, 400]
文本 : ['twinkled', 'and', 'his', 'usually', 'pale', 'face',
'was', 'flushed', 'and', 'animated', 'the']
索引: [2186, 3, 25, 1044, 362, 113, 7, 1421, 3, 1045, 1]