这篇paper,我认为是BERT的又一篇跟风之作。
里头提到,
1. 用RNN不用LSTM的理由,LSTM有遗忘机制,但是带来了一个负面效果,它可能会需要更多的训练数据。
2. label unreliability issus, 标签可可靠问题。更少的依靠标签可靠性问题。
# introspective 好反省的。内省。
# interactive 相互作用
带来了目标和内容单词的内省效果,更少的使用fuzzy_label
1. 能够让目标和context相互作用
2. 让label更加smoothing,预防错误的标签问题
3. 更改BERT模型,使其性能变得更好
4. 更轻量级的attention
# set of features, 情感词典和词袋模型构成特征,这特别劳动力密集。
1. Tang TD-LSTM
2. Tang MemNet Multiple attention
3. ATAE-Lstm 在词表示上加入attention,再进行attention weights的计算
4. chen RAM 多头attention,双向LSTM,加上GRUS
5. Ma IAN target 和 attention 的交集
AEN: Attentional Encoder Network
embedding layer
attentional encoder layer
target-specofic attention layer
output layer
6. Glove embedding 和 BERT embedding
# 在neutral是一个不值得相信的label.
所以用了一个Lable Smoothing Regularization , 而后l2正则化,
Glorot initialization
Bert embedding
过于大量的traick堆积,过于复杂的模型。
我甚至认为是BERT带来的embdding的提升。
恕我直言,这简直太让人失望了。
这篇paper怎么可能中。