哈工大神经网络与深度学习知识总结(四)

目录

6.2 YOLO网络

6.3. 语义分割与FCN

6.4 风格迁移

6.5人脸识别

 6.6 视觉应用展望

7 循环神经网络与NLP

7.1 数据处理基础

 7.2 文本处理

7.3 文本预处理

​7.4 文本嵌入

 7.5 RNN模型

7.6LSTM模型


6.2 YOLO网络

6.2.1 YOLO网络结构

       网络结构包含24个卷积层和2个全连接层;其中前20个卷积层用来做预训练,后面4个是随机初始化的卷积层,和2个全连接层。

 6.2.2 YOLO网络输入及输出
网络输入:

       YOLO v1在PASCAL VOC数据集上进行的训练,因此输入图片为448 × 448 × 3。实际中如为其它尺寸,需要resize或切割成要求尺寸。
       将图片分割为 𝑆 2个grid(𝑆 = 7),每个grid cell的大小都是相等的;每个格子都可以检测是否包含目标;YOLO v1中,每个格子只能检测一种物体(但可以不同大小)
 

 网络输出:
       输出是一个7 × 7 × 30的张量。对应7 × 7个cell ,每个cell对应2个包围框(bounding box, bb),预测不同大小和宽高比,对应检测不同目标。每个bb有5个分量, 分别是物体的中心位置(𝑥, 𝑦)和它的高(ℎ) 和宽 (𝑤) ,以及这次预测的置信度。

6.2.3 YOLO处理细节
6.2.3.1 YOLO包围框
        有S×S个框,每个框的bb个数为𝐵,分类器可以识别出𝐶种不同的物体, 那么所有整个ground truth的长度为𝑆 × 𝑆 × (𝐵 × 5 + 𝐶) YOLO v1中,这个数量是30 ;YOLO v2和以后版本使用了自聚类的anchor box为bb, v2版本为𝐵 = 5, v3中𝐵 =9
6.2.3.2 归一化
       四个关于位置的值,分别是 𝑥, 𝑦, ℎ 和 𝑤 ,均为整数,实际预测中收敛慢因此,需要对数据进行归一化,在0-1之间。


6.2.3.3 置信度
置信度计算公式:

Pr(𝑜𝑏𝑗)是一个grid有物体的概率 

IOU是预测的bb和真实的物体位置的交并比。

6.2.3.4 训练数据及网络输出

Pr𝑜𝑏𝑗 的ground truth :三个目标中点对应格子为 1 ,其它为 0

6.2.4 损失函数

 YOLO损失函数一共五项

6.2.5 训练与NMS(非极大值抑制)
6.2.5.1 NMS算法要点
首先丢弃概率小于预定IOU阈值(例如0.5)的所有边界框;
对于剩余的边界框:选择具有最高概率的边界框并将其作为输出预测;
计算 “作为输出预测的边界框”,与其他边界框的相关联IoU 值;舍去IoU大于阈值的边界框;其实就是舍弃与“作为输出预 测的边界框” 很相近的框框。
重复步骤2,直到所有边界框都被视为输出预测或被舍弃
6.2.5.2 数据集训练
YOLO先使用ImageNet数据集对前20层卷积网络进行预训练,然后使用完整的网络,在PASCAL VOC数据集上进行对象识别和定位的训练和预测
训练中采用了drop out和数据增强来防止过拟合。
YOLO的最后一层采用线性激活函数(因为要回归bb位置),其它层都是采用Leaky ReLU激活函数:
YOLO V3模型效果

 

6.3. 语义分割与FCN


6.3.1 语义分割定义及算法发展历史
语义分割:找到同一画面中的不同类型目标区域
基本思想:对图中每一个像素进行分类,得到对应标签


 语义分割发展历史


6.3.2 反卷积与反池化
 反卷积

 反池化(上池化)

 

  6.3.3 FCN具体实现
卷积部分:
FCN中第6、7、8层都是通过 1 × 1 卷积得到的,第6层的输出是 4096 × 7 × 7 ,第7层的输出是 4096 × 7 × 7 ,第8层的输出是 1000 × 7 × 7 ,即1000个大小是 7 × 7 的特征图(称为heatmap)


 反卷积部分:

 6.3.4 FCN训练结果

 6.3.5 FCN评价指标与标注工具
评价指标

 常见标注工具

6.4 风格迁移


定义:如果你是一位摄影爱好者,也许接触过滤镜。它能改变照片的颜色样式,从而使风景照更加锐利或者令人像更加美白。但一个滤镜通常只能改变照片的 某个方面。如果要照片达到理想中的样式,经常需要尝试大量不同的组合, 其复杂程度不亚于模型调参。 在本节中,我们将介绍如何使用卷积神经网络自动将某图像中的样式应用在 另一图像之上,即风格迁移。 这里我们需要两张输入图像,一张是内容图像,另一张是样式图像,我们将使用神经网络修改内容图像使其在样式上接近样式图像。

 6.4.1 方法
首先,我们初始化合成图像,例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量,即样式迁移所需迭代的模 型参数。
然后,我们选择一个预训练的卷积神经网络来抽取图像的特征,其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。
6.4.2 损失函数
内容损失(content loss)使合成图像与内容图像在内容特征上接近
样式损失(style loss)令合成图像与样式图像在样式特征上接近
总变差损失(total variation loss)则有助于减少合成图像中的噪点。 最后,当模型训练结束时,我们输出样式迁移的模型参数,即得到最终的合成图像
内容代价函数:

风格代价函数

总体风格代价函数

6.4.3 小结
样式迁移常用的损失函数由3部分组成:内容损失使合成图像与内容图像在内容特征上接近,样式损失令合成图像与样式图像在样式特征上接近,而总变差损失则有助于减少合成图像中的噪点。
 可以通过预训练的卷积神经网络来抽取图像的特征,并通过最小化损失函数来不断更新合成图像。
用格拉姆矩阵表达样式层输出的样式。


6.5人脸识别


6.5.1 Siamese网络

 6.5.1.1 代价函数

 6.6 视觉应用展望


6.6.1 生成对抗网络

生成对抗网络(GAN)的初始原理十分容易理解,即构造两个神经网络,一个生成器,一个鉴别器,二者互相竞争训练,最后达到一种平衡(纳什平衡)。
GAN 启发自博弈论中的二人零和博弈(two-player game),GAN 模型中的两位博弈方分别由生成式模型(generativemodel,G)和判别式模型(discriminative model,D)充当。
生成模型 G 捕捉样本数据的分布,用服从某一分布(均匀分布,高斯分布等)的噪声 z 生成一个类似真实训练数据的样本,追求效果是越 像真实样本越好。
判别模型 D 是一个二分类器,估计一个样本来自于训练数据(而非生 成数据)的概率,如果样本来自于真实的训练数据,D 输出大概率, 否则,D 输出小概率。

7 循环神经网络与NLP

7.1 数据处理基础


7.1.1 特征编码
使用199维特征向量表达一个人的特征

 7.2 文本处理


7.2.1 文本切分


 7.2.2  统计词频
创建一个字典( 实际中经常使用 Hash 表 ) 进行词频统计 (初始字典为空)

将词频索引化如果词汇太多,则只保留排序在前的k个单词 (如取𝑘 = 10000)
将每一个词映射到索引号上

7.3 文本预处理


一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。 我们将解析文本的常见预处理步骤。 这些步骤通常包括:
将文本作为字符串加载到内存中
将字符串切分为词元(如单词和字符)
建立一个字典,将拆分的词元映射到数字索引
将文本转换为数字索引序列,方便模型操作
读取数据集

词汇切分
构建词索引表
打印前几个高频词及索引
[('<unk>', 0), ('the', 1), ('i', 2), ('and', 3), ('of', 4),
('a', 5), ('to', 6), ('was', 7), ('in', 8), ('that', 9)]
将每一条文本行转换成一个数字索引列表
文本: ['the', 'time', 'machine', 'by', 'h', 'g', 'wells']
索引: [1, 19, 50, 40, 2183, 2184, 400]
文 本 : ['twinkled', 'and', 'his', 'usually', 'pale', 'face',
'was', 'flushed', 'and', 'animated', 'the']
索引: [2186, 3, 25, 1044, 362, 113, 7, 1421, 3, 1045, 1]


7.4 文本嵌入

 词嵌入(word embedding)

将独热向量映射为低维向量

原始向量:𝑣维;映射后:𝑑维,𝑑 ≪ 𝑣

映射矩阵: 𝑑 × 𝑣 根据训练数据学习得到

理解映射参数矩阵

 7.5 RNN模型


7.5.1 RNN模型 

7.5.2 RNN示例


结果评价
• 训练精度: 89.2%
• 验证精度: 84.3%
• 测试精度: 84.4%
7.5.3 RNN问题
随着输入的增加,会产生“遗忘”问题

 

7.6LSTM模型

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值