论文-《Answer Them All! Toward Universal Visual Question Answering Models》重点翻译+扩展

最新推荐文章于 2024-03-18 20:09:45 发布

Vivinia_Vivinia

最新推荐文章于 2024-03-18 20:09:45 发布

阅读量540

点赞数

分类专栏：论文文章标签： VQA 论文

本文链接：https://blog.csdn.net/hester_hester/article/details/102910838

版权

The projector F is modeled as a 4-layer MLP with 1024 units with swish non-linear activation functions [45].

投影F是一个四层MLP，有1024个单元，并且具有swish非线性激活函数。

注释：

1.MLP：

感知机是神经网络（深度学习）的起源算法，是一个包含若干个输入和一个输出的模型。

输入和输出之间学习到一个线性关系，得到的中间结果为：

再接着一个神经元激活函数：

这个模型只能用于二元分类，且无法学习比较复杂的非线性模型，因此在工业界无法使用

进而出现了多层感知机（MLP），也成为深度神经网络（DNN），虽然DNN看起来很复杂，但是从小的局部模型来说，还是和感知机一样，即一个线性关系z=∑wixi+bz=∑wixi+b加上一个激活函数σ(z)σ(z)。神经网络在感知机的模型上做了扩展，总结下主要有三点：

（1）加入了隐藏层，隐藏层可以有多层，增强模型的表达能力

（2）输出层的神经元也可以不止一个输出，可以有多个输出，这样模型可以灵活的应用于分类回归

（3）对激活函数做扩展，神经网络一般多用Sigmoid或者Relu等

而MLP的主要特性有：

（1）包含多个层（最少一个隐藏层）

（2）每一层内的神经元无连接

（3）每一层的神经元仅和下一层的神经元全连接

（4）信号仅以前馈方式传输

2.Swish是Google在10月16号提出的一种新型激活函数,其原始公式为:f(x)=x * sigmod(x),变形Swish-B激活函数的公式则为f(x)=x * sigmod(b * x),其拥有不饱和,光滑,非单调性的特征,而Google在论文中的多项测试表明Swish以及Swish-B激活函数的性能即佳,在不同的数据集上都表现出了要优于当前最佳激活函数的性能。