embeding 层的作用
1 降维: 使用One-hot 方法编码的向量会很高维也很稀疏,假设我们在NLP 中遇到了一个包含2000个词的字典,当时用One-hot 编码时,每一个词都会被一个包含2000个整数的向量来表示,其中1999个数字是0,要是字典再大一点的话这种方法的计算效率要大打折扣。
2 寻找相似性: 训练神经网络的过程中,每个嵌入的向量都会得到更新
参考https://blog.csdn.net/sinat_38640606/article/details/80346313