多模态seq2seq模型做情感分析
主要想法:
将两个模态的time_step对齐,之后训练seq2seq模型。其中一个模态作为输入,另一个作为标签,用交叉熵进行训练。用lstm做encoder和decoder,encoder得到的hidden layers认为是两个模态语义的融合。
之后利用训练好的seq2seq模型的encoder得到hidden layer作为模态融合的语义表示,过rnn进行情感值预测。
如果不进行对齐的话,用标准的seq2seq模型得到中间语义向量,但是过encoder的时候,每一次的输入是h(t-1)和xt做attention之后的向量。