这是Tang Duyu 在2015发表在TASLP上的一篇文章。中心思想是通过同时训练句子划分和句子分类解决句子中短语和其构成单词情感不一致的问题。本文模型的核心就是提出了句子分割模型作为模型的一部分,而不是简单的把句子划分成一个个单词,以单词作为计算单元。模型分为三个层次:候选生成模型,划分排序模型,情感分类器。分类器训练结果的误差反向传播,不仅用于更新分类器,而且用来更新分割排序模型,使得分割模型不断优化,得到的分割结果对分类尽可能有用。
在摘要部分,作者就明确表明本文是为了解决句子中短语及其组成部分的情感不一致问题。对于模型的使用也有两种方法,一个是训练,一个是预测。
首先讲训练过程。
- 为每个句子生成至少一个划分
- 随机选择一个划分结果,利用它的分类特征初始化情感分类器
- 随机初始化划分打分模型
- 联合训练分类器和划分模型:对每个划分结果,利用当前的分类器预测其情感,然后利用他们更新划分打分模型。再利用新的划分打分模型更新分类器:首先对每个划分候选抽取划分特征,用这些特征计算得分,对每个句子选择得分最高的前k个划分,用这k个划分结果训练分类器。
- 经过R次迭代,得到分类器和划分打分器。
在这里先说明模型中用到的两个特征抽取器:划分特征抽取器和分类特征抽取器。划分特征抽取器是用来计算句子的一个划分得分的,包括embedding特征和面向分割的特征;而分类特征抽取器抽取的特征用作分类器的输入