1.self-attention
理解:最终是要输出,假设按照输入长度输出,就要在每个位置有对所有输入有个softmax-weigth的累加。
softmax-weight 来自于 输入embedding 做k,输入embedding做v,矩阵转置相乘得到一个相同尺寸的矩阵,含义是每个位置上,所有位置对此位置的权重值,sofamax后即得到0-1之间的权重值w。然后 讲原始embdding作为v,w*v即可得到输出。
2.topk-pooling
对pooling以后的值根据值大小取topk组合成新矩阵,相当于在某一维度降维操作
3.中长文本分类, encode+pooling+fcl-layer认为是个基线操作
优化方面:加入 word-encode char-encode , pooling层做 concat(topk-pooling,attention),
4.深层神经网络,多达5+层,resnet,防止梯度消失;
网络结构内部参数值可视化,发现是否已经梯度消失;