摘 要 在实际应用场景中,情感分析技术为自动判别文本情感极性提供了有效的决策及解决方案,但是文本情感分析技术依赖于大量的标定样本.为了减小对人工标注的依赖,有研究者提出了基于领域自适应的跨领域情感分析技术.该技术面向跨领域文本情感分析任务,将经由标定样本训练的源领域模型,迁移至无标定的目标领域.然而目前的领域自适应技术仅从单个角度进行迁移,即减小领域专有特征差异或提取领域不变特征.因此考虑到跨领域文本数据同时包含领域专有特征和领域不变特征的特点,提出了一种领域对齐对抗的无监督跨领域文本情感分析算法.该算法通过渐进式的迁移策略,逐层减小不同语义层的领域差异,并在高层语义子空间通过协同优化的领域自适应算法,实现跨领域文本数据的领域知识迁移.在2个公开跨领域文本情感数据集上的24组跨领域文本情感分类实验结果表明,与4类领域自适应算法中代表性的和当前表现最优的方法相比,领域对齐对抗的无监督跨领域文本情感分析算法在24组实验中取得了最高的平均分类准确率,同时结合迁移性能分析结果和特征分布可视化结果,证明该算法一定程度上提升了现有无监督跨领域文本情感分析算法的分类性能和迁移性能.
关键词 跨领域情感分类;迁移学习;无监督领域自适应;情感分析;协同优化
随着互联网的迅速发展和社交媒体平台的快速普及,包含个人情感倾向的文本评论数据大量产生,文本情感分析技术(sentiment analysis)应运而生.该技术采用有监督学习的方式,利用标定样本训练文本情感分类模型,实现了对评论数据情感倾向的自动判别[1].目前文本情感分析技术被广泛地应用在舆情监测[2]、智能客服[3]、社交网络情感分析[4]等实际业务场景中,该技术实现了对舆情信息的及时把控和商业价值的有效挖掘.然而全新的产业领域层出不穷,未标定的文本数据日益剧增ÿ