参考:动手学深度学习(PyTorch版)Releases · d2l-ai/d2l-zh (github.com)
神经网络与深度学习课程PPT
一、目标检测与YOLO
包围框:下图红色方框即为包围框;
归一化:对包围框关于位置的值𝑥,𝑦,ℎ, 𝑤j进行归一化操作;
置信度:概率与预测的 和真实的物体位置的交并比:
YOLO官方的模型结构:
二、其他领域
1、语义分割关注如何将图像分割成属于不同语义类别的区域。这些语义区域的标注和预测都是像素级的,且边框更加精细;计算机视觉领域还有2个与语义分割相似的重要问题,即图像分割和实例分割:图像分割将图像分割成若干组成区域。这类问题的方法通常利用图像中像素之间的相关性。它在训练时不需要有关图像像素的标签信息,在预测时也无法保证分割出的区域具有我们希望得到的语义;实例分割又叫同时检测并分割。它研究如何识别图像中各个目标实例的像素级区域。
2、风格迁移:使用卷积神经网络自动将某图像中的样式应用在另一图像之上。
3、人脸识别
三、RNN
基本结构如下图所示:
随着输入的增加,RNN会产生“遗忘”问题(梯度消失)。也就是误差反传过程中,误差在逐渐减小,当环节变得多起来,误差会趋于0,对于之前的权重没有影响,不再改变 ;后续LSTM可以一定程度解决这个问题。