MIT6.S094深度学习与无人驾驶整理笔记（5）——————自动驾驶中的循环神经网络

最新推荐文章于 2024-01-13 21:12:13 发布

咕噜咕噜day

最新推荐文章于 2024-01-13 21:12:13 发布

阅读量637

点赞数 2

分类专栏： MIT深度学习与自动驾驶课程

本文链接：https://blog.csdn.net/qq_36533552/article/details/83312680

版权

MIT深度学习与自动驾驶课程专栏收录该内容

5 篇文章 2 订阅

订阅专栏

1.卷积神经网络对音频进行操作，给定一个音频也能算作是输入，只要输入的是一段固定的大小就能算作是一个输入。只要有一个基准数据从输入映射到输出，无论是否全连接的神经网络，都是Vanilla RNN.RNN对于多对多是不对齐的，比如机器翻译.RNN的计算函数有一对多，多对一以及多对多，也可以是双向的.RNN真正的闪光点是它的输入的大小是可变的，所以没有固定的数据块，输出也是一样.RNN产生输出并复制输出将其循环回去。

2.反向传播机制是目前所知训练的最好的机制。每个神经元都有可微的平滑的函数，当通过激活函数时，将输入通过这个网络可微的计算节点，产生输出，在输出中也有基准数据，期望网络产生的是正确的，观察其实际产生的值和希望的值直接的差异，产生误差。然后反向传播这个误差时，用来奖励或惩罚权值和参数来改变输出。

为了让结果从-12变成1，要增加正梯度值，减少负梯度的值，X，Y的梯度是负，Z的梯度是正。（梯度的描述只是针对这里的局部，对于更大的整体的满意结果并不了解）

常见的门操作有+×和最大化操作，当做逆推的时候忽视正推的值，对于+门，是将梯度同等的分配下去;×门是交换正推的值，并与输出中的梯度相乘;最大化门即输出最大的梯度。

3。

3个需要不断调整的权重和两个输入，神经网络的主要任务是更新权重和偏置去减小损失函数。损失函数是反向传播的做出调整的数额就是学习率。调整权值和偏置的过程就是最优化。一般DNN的参数是上十万的，可以加入各种随机性，防止进入特别复杂的函数的局部最小值。

4.最流行的激活函数：

优化器优化算法总结推荐博客：https：//blog.csdn.net/muyu709287760/article/details/62531509#12-stochastic-gradient-descent

5.做数值优化和非线性优化时，很多算法对鞍点很不好处理，因为函数容易在鞍点来回摆动。有时候有比鞍点更小的全局的点无法得到。很大的值导致梯度消失容易发现，但是很小的值导致梯度消失不容易被发现。

优化：原子优化器另外遗传算法;蚁群优化算法;各种自然启发式算法用于调整权重和偏置，但效果不太好。

6.CNN确保空间的一致性，RNN保证参数中的时序一致性。

7.RNN不仅是单向的，也可以有正向和反向的边，RNN不擅长记住长期的事务。eg：对于语义不连续的，或是发生在一段时间之前的概念分类，其初始状态难以记住。所有引人注目的在时间音频视频上的输出它们都需要LSTM。

8.LSTM:长短期记忆网络 tanh：激活函数另一个流行的S型激活函数，将输入的范围压缩到-1到1 。 sigmold：将输入的范围压缩到0-1

第一处作用是传送带，输送从上个神经元的信息到下一个，采用sigmoid的函数决定贯穿单元希望通过则输出1 ，否则输出0；第二处这个神经元决定更新记忆状态的哪个部分，过程中药插入哪些值。第三处作用这个神经元对接受的来自上一个神经的输出和自己的输入部分，判断自己要记住和遗忘哪些部分。第四处作用这个部分进行实际的更新和遗忘。

9.图像标题的生成：根据场景中的不同的物体生成其所对应的单词，然后把他们拼接成语法正确的句子，并把句子排序。第一步输入并识别图像，由计算机视觉完成，分割图片并识别。LSTM也可用于视频，为视频生成相应的标题，每一帧都是一副图片，输出一系列的字符。

RNN引导CNN把图片转成一个“房间号”，LSTM对于音频的每一帧都有相应的卷积层。eg：对于医疗诊断，有高度稀疏不同长度的信息序列，如电子病历等。

也可用LSTM生成音频，与生成语言是几乎一致的。