学习微博中情感分类的句子表达(NLPCC2013)

该研究使用深度信任网络(DBN)从微博数据中学习情感分类的句子表达。通过伪标记数据和弱监督学习,DBN在情感分析任务上优于PCA和LDA。实验表明,结合基本特征和DBN表达,性能得到提升。主要特征包括词一元特征、标点特征、情感词典和拟声词词典特征。
摘要由CSDN通过智能技术生成

学习微博中情感分类的句子表达(NLPCC2013) Learning sentence representation for emotion classification on microblogs

文章采用伪标记数据,来通过深度信任网络(DBN)算法学习句子表达。数据是通过微博情感分析中弱监督学习和训练语言模型得到。在监督学习框架上的实验结果表明,使用伪标记数据,深度信任网络学到的表达比基于主成分分析和基于隐性Dirichlet分配的表达要好。引入基于深度信任网络的表达于基本特征,性能进一步提高。
文章中通过情感符号收集的信息叫做伪标记语料。利用伪标记语料学习DBN基本框架中的句子表达。
微博情感分析可以从两个角度来看,依赖于目标的和目标独立的情感分析。文章研究目标独立的情感分类任务。

方法

从伪标记语料学习表达一些步骤是必要的。为了获得伪标记语料,每个类(Happy,Sad,Angry和Surprise)的表情符号需要提前选定。为了减少手工工作同时过滤有歧义的表情符号,基于它们的质量和数量选择有代表性的表情符号。接着预处理和标准化来保证伪标记语料的质量。然后,提出基本特征映射每条信息到相同维数的特征空间。最后采用深度信任网络通过一个非监督,贪心逐层算法学习句子表达。

  • 表情符号的选择
    为了保证自动标记的质量,不是所有的表情符号都保留,有歧义的需要过滤掉。因此,基于质量和数量的表情符号自动排序策略很重要。受参考文献的启发,每个表情类中的每个表情符号的重要性为: Si(ej)=Acci(ej)log10(freq(ej)) (1) Acci(ej)=kco_freq(ej,s
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值