JST :Joint sentiment topic model & ASUM :Aspect sentiment unification model

Joint sentiment /topic model

JST模型从文本检测情感和主题 
之前的工作缺点:基于机器学习的情感分类需要大量的人工标记; 一个领域训练的情感分类模型不能很好地应用于另一个领域; 主题/特征检测和情感分类经常分开来进行,忽略了它们的相互依赖性。

JST 同时建模话题和情感

 

情感分析可以分为三类:积极,消极和neutral。更细粒度的可以分析单个用户对特定item和话题的观点等。

 

在传统的LDA中,模型分为三个层次,分别是 document-topic,topic-word;而JST在document-topic之间添加了sentiment层次,成为了四层模型,话题从情感生成,单词有sentiment-label和topic共同生成。如图:


 

和AUSM类似,这时候话题参数从T维变成了S*T维(还要V),首先是判断情感极性,然后选出极性对应的话题分类,然后得到话题分布,最后生成单词。所以作者说,他们和LDA的区别在于,每个文档的单个话题分布,变为了S个话题分布(对应情感,其实就是3个吧)。变种Tying-JST模型,只有一个话题分布,对应所有的文档。相比较而已,三者的粒度从单词过渡到文档。

 

Incorporating Model Priors:

在期刊(TKDE)的扩展版本,作者提到了结合先验的方法,即在φ添加S*V的先验矩阵,表示了单词的情感属性,修改dir先验的转换矩阵。然后使用乘法(β)实现映射(保留相应的极性,同时其他极性的先验置为0)

 

JST模型

  • 完全非监督,更加灵活,更容易适用于其他领域。
  • 通过考虑相互联系同时检测情感/主题。

LDA & JST

  • LDA
  • 两个矩阵:分布(文档-主题):;分布(主题-词):。
  • JST
  • 3个矩阵:分布(文档-情感):;分布(文档-情感-主题):;分布(文档-情感-词):。

JST的过程

  • 对每个文档d,选择一个分布。
  • 对于文档d下的每个情感标签l,选择一个分布。
  • 对于文档d中的每个词:选择一个情感标签;选择一个主题;从由主题和情感标签定义的词分布中选择一个词。

提高情感检测准确率的一个方向是引入先验知识(互信息等)或者主观性词典。 
JST的分类性能与机器学习最好的性能接近,但是节省了很多标记工作。

ASUM模型

参考文章:Aspect sentiment unification model

  • SLDA(Sentence-LDA)的生成过程: 
    • 对每个方面z,绘制一个词分布。
    • 对每条评论d:绘制评论的方面分布;对每个句子:选择一个方面,产生词
  • ASUM的生成过程 
    • 对每一个情感s和方面z对,绘制一个词分布。
    • 对每一个文档d:绘制文档情感分布;对于每一个情感s,绘制方面分布;对于每一个句子:选择一个情感,给定情感j,选择一个方面,产生词。

ASUM通过使用非对称的利用先验情感信息。如,期望“good, great”不可能在消极表达中出现,类似地,“bad, annoying”不可能在在积极表达中出现。这可以编码到里,里的元素对应通常的积极情感词,在消极情感方面值小以及通常的消极情感词,在积极情感方面值小。隐变量通过Gibbs采样推理。在马尔科夫链的每个转换步中,第i个句子的情感和方面根据条件概率选择。

提出利用{aspect,sentiment}pair 的方式结合话题与情感,其中aspect是比topic更抽象的概念。这篇论文任务单个sentence共享相同的话题和情感,所以提出了Sentence-LDA,和Aspect-Sentiment Unification Model(ASUM),前者生成句子的话题,后者生成句子的话题和情感对。

 

话题模型的优势在于:1,无监督学习;2,语义分析,通过概率描述话题与单词的相关度。

 

其他相关的工作包括
1,TSM,认为情感也是一种话题,将话题和情感混合,很难分析两者的关系

2,MAS,情感是再不同话题上的情感概率分布,由话题和单词构成,所以需要用户的预定义信息

3,JST,相比于假设单词的话题不同,ASUM假设语句的话题话题,粒度不同

 

下面主要介绍S-LDA和ASUM,如图:

 


其中SLDA和LDA的采样过程大致相同,改变了粒度而已。对应ASUM,首先可以看到多出了文档的情感分布,每个文档不同——换个角度来说,比较LDA的话题分布Θ的K维,在不同话题上的不同分布,AUSM在话题分布Θ、的分布是K*S维的,其中S是情感分类,向量分布上的一点变为矩阵上一点。

 

AUSM的两个重要的超级参数,γ和β,其中γ参数选择1,表示各种情感出现概率相同(对称取法),另一个β为了结合seed word,采用非对称取法,负向单词情感采样的时候,正向单词的先验为0,其他设为0.001,同理正采样时,负向单词先验为0;除此之外,初始化也经过设计,(如果随机采样,先验设计将失去效果),将情感seed单词的情感分配给这些单词,有弊端(没看懂这句:but the limitation is that the sentiment seed words can only be assigned to the senti-aspects of the same sentiment.)

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值