Joint Sentiment/Topic Model & Aspect and Sentiment Unification Model
参考文章:Joint Sentiment/Topic Model for Sentiment Analysis
JST模型从文本检测情感和主题
之前的工作缺点:基于机器学习的情感分类需要大量的人工标记; 一个领域训练的情感分类模型不能很好地应用于另一个领域; 主题/特征检测和情感分类经常分开来进行,忽略了它们的相互依赖性。
JST模型
- 完全非监督,更加灵活,更容易适用于其他领域。
- 通过考虑相互联系同时检测情感/主题。
LDA & JST
- LDA
- 两个矩阵: D×T 分布(文档-主题): θ ; T×W 分布(主题-词): ϕ 。
- JST
- 3个矩阵: D×S 分布(文档-情感): π ; D×S×T 分布(文档-情感-主题): θ ; D×S×W 分布(文档-情感-词): ϕ 。
JST的过程
- 对每个文档d,选择一个分布 πd∼Dir(γ) 。
- 对于文档d下的每个情感标签l,选择一个分布 θd,l∼Dir(α) 。
- 对于文档d中的每个词:选择一个情感标签 li∼πd ;选择一个主题 zi∼θd,li ;从由主题 zi 和情感标签 li,φlizi 定义的词分布中选择一个词 wi 。
提高情感检测准确率的一个方向是引入先验知识(互信息等)或者主观性词典。
JST的分类性能与机器学习最好的性能接近,但是节省了很多标记工作。
ASUM模型
参考文章:Aspect and Sentiment Unification Model
- SLDA(Sentence-LDA)的生成过程:
- 对每个方面z,绘制一个词分布 ϕz∼Dirichlet(β) 。
- 对每条评论d:绘制评论的方面分布 θd∼Dirichlet(α) ;对每个句子:选择一个方面 z∼Multinomial(θd) ,产生词 w∼Multinomial(ϕz)
- ASUM的生成过程
- 对每一个情感s和方面z对,绘制一个词分布 ϕsz∼Dirichlet(βs) 。
- 对每一个文档d:绘制文档情感分布 πd∼Dirichlet(γ) ;对于每一个情感s,绘制方面分布 θds∼Dirichlet(α) ;对于每一个句子:选择一个情感 j∼Multinomial(πd) ,给定情感j,选择一个方面 k∼Multinomial(θdj) ,产生词 w∼Multinomial(ϕjk) 。
ASUM通过使用非对称的 β 利用先验情感信息。如,期望“good, great”不可能在消极表达中出现,类似地,“bad, annoying”不可能在在积极表达中出现。这可以编码到 β 里, β 里的元素对应通常的积极情感词,在消极情感方面值小以及通常的消极情感词,在积极情感方面值小。隐变量 θ,π,ϕ 通过Gibbs采样推理。在马尔科夫链的每个转换步中,第i个句子的情感和方面根据条件概率选择。