摘 要 文本情感分类是自然语言处理领域的挑战性研究课题.基于词典的方法和传统基于机器学习方法分别依赖高质量的情感词典和鲁棒的特征工程,而多数深度学习方法的性能则依赖大规模人工标注数据集.幸运的是,不同社交平台用户生成了大量带标签的舆情文本,这些文本可以作为弱标注数据集被用于情感分类任务,但是弱标注数据集中的噪声样本会对训练过程产生负面影响.提出了一种用于小样本情感分类任务的弱监督对比学习(weakly-supervised contrastive learning, WCL)框架,旨在学习海量带噪声的用户标记数据中的情感语义,同时挖掘少量人工标注数据中潜在的类间对比模式.该框架包括2个步骤:首先,设计了一种弱监督预训练策略来削弱噪声数据的影响;其次,在有监督微调阶段引入对比学习策略来捕获少量有标注数据的对比模式.在亚马逊评论数据集上评估了所提出的方法,实验结果表明所提出的方法显著优于其他同类对比方法.在仅使用0.5%(即32个样本)比例的有标注数据集进行微调的情况下,所提出方法的性能依然超出其他深度方法.
关键词 情感分类;弱监督学习;有监督对比学习;小样本学习;迁移学习
移动终端设备的普及为互联网用户提供了便捷的互动渠道,大规模用户群体可以针对新闻事件、热门话题、电商产品等对象随时随地发表自己的观点,所产生的海量评论文本中往往蕴藏着丰富的用户情感信息.分析这些评论文本的情感倾向,能够给商家的营销策略调整、政府部门的相关政策制定等领域提供舆情参考.另一方面,消费者也可以根据他人发表的评论观点做出更合理的购买决策.因此,面向评论文本的情感分类方法受到了学界和业界的广泛关注.
早期的情感分类方法包括基于词典的方法和基于传统机器学习的方法.基于词典的方法利用情感词典中的情感词汇作为判断评论情感极性的主要依据,因此需要构建高质量