# polarity 和 aspect 都是有的,但是在一句话里,不同的target里面可能有不同的情感极性。
# 所以单纯的LSTM模型是不行的。要加上attention机制。
1. 不同的aspects被考虑到
2. concatenate aspect into hidden representations, 将aspect vector 加入到intput word中。
这个aspect的加法,我也是醉了,简直太牛逼了,这完全不符合科学。
Attention的计算方式是在是奇葩,首先e_N代表的是将va叠加几次,可能是增强va的效力,va越多,也就是句子越长,attention的权重越重。
这个w_h,这个是计算attention的K,也就是说,这个attention机制,是某一个随机初始的Wh作为参数,原来可以这么用吗?
再之后是
这个图干了个什么事儿,就是把v_a加入到了Attention中的,这么奇葩的事儿,我也能搞?
L_2 和 AdaGrad
证明方法:可视化attention;
case_study:拿出一些case study的东西,和以前的attention比,证明自己的效果好。