1、给定某变量X([batch_size, seq_len, input_dim]),经过线性层
Y
=
X
W
+
b
{Y=XW+b }
Y=XW+b
W维度[input_dim, out_dim],b维度[out_dim],Y维度为[batch_size, seq_len, out_dim]。
假定input_dim=5,out_dim=8。X为5维空间中的一个点,经过线性变换到8维空间某个点。W矩阵相当于线性变换矩阵(旋转和平移),b是在
W
X
WX
WX变量方向上进行缩放。在变量X上进行线性变换,相当于对变量X进行平移、旋转、缩放。
做多次线性变换,可以合并成一次线性变换,所以需要激活函数,将线性变换进一步变成非线性变换。
变换相关知识
刚体变换:两点间的距离经变换后保持不变,保持平行关系。
刚体变换包括旋转、平移、翻转。刚体变换是仿射变换子集。
仿射变换:直线经过变换后仍是直线,且保持平行关系。(线段的长度比例不变)
仿射变换包括旋转 (以角度旋转)、平移 (向量加)、缩放(图像整体变换)、剪切(图形拉伸)、翻转(图形翻转)
投影变换:直线经过变换后仍为直线,但平行关系不一定保持。也称作透视变换。典型例子:不规则四边形通过变换后变成正方形。
非线性变换:顾名思义,即直线通过变换后不一定为直线。
参考资料:
添加链接描述
添加链接描述