NLP中MLP线性层的理解

本文探讨了在深度学习中,线性变换的作用及其局限性,解释了为什么需要激活函数来引入非线性特性。详细介绍了刚体变换、仿射变换、投影变换和非线性变换的概念,并讨论了它们在神经网络中的应用。

1、给定某变量X([batch_size, seq_len, input_dim]),经过线性层
Y = X W + b {Y=XW+b } Y=XW+b
W维度[input_dim, out_dim],b维度[out_dim],Y维度为[batch_size, seq_len, out_dim]。
假定input_dim=5,out_dim=8。X为5维空间中的一个点,经过线性变换到8维空间某个点。W矩阵相当于线性变换矩阵(旋转和平移),b是在 W X WX WX变量方向上进行缩放。在变量X上进行线性变换,相当于对变量X进行平移、旋转、缩放。

做多次线性变换,可以合并成一次线性变换,所以需要激活函数,将线性变换进一步变成非线性变换。

变换相关知识

刚体变换:两点间的距离经变换后保持不变,保持平行关系。
刚体变换包括旋转、平移、翻转。刚体变换是仿射变换子集。
在这里插入图片描述

仿射变换:直线经过变换后仍是直线,且保持平行关系。(线段的长度比例不变)
仿射变换包括旋转 (以角度旋转)、平移 (向量加)、缩放(图像整体变换)、剪切(图形拉伸)、翻转(图形翻转)
在这里插入图片描述
投影变换:直线经过变换后仍为直线,但平行关系不一定保持。也称作透视变换。典型例子:不规则四边形通过变换后变成正方形。
在这里插入图片描述
非线性变换:顾名思义,即直线通过变换后不一定为直线。
参考资料:
添加链接描述
添加链接描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值