实质
Embeding层实质上就是做了一个矩阵乘法,对数据进行降维,比如5*100W的矩阵,乘上100W*6的矩阵,就变成5*6的矩阵
为什么
为什么要对数据进行降维?
主要是因为原本的数据信息密度不够,而且特征之间缺少关联性
于是将之前的信息重新编码成信息密度更大,而且特征之间存在关联的信息
而要乘上的那个矩阵的一列,就是之前的数据的一项对于每种特征的权重
参考 https://blog.csdn.net/weixin_42078618/article/details/84553940
CV中的embeding
用global average pooling实现embeding,就是提取图像每个channel的权重?