基于数据增强和多任务学习的突发公共卫生时间谣言识别研究
摘要
- Motivation. 通过引入多任务学习模型和数据增强方法,解决突发公共卫生事件情景下谣言识别任务数据不平衡且带标签数据量少的问题。
- Methods. 首先提取突发公共卫生事件谣言文本特征构建替换词表,基于扩展同义词表构建 CEDA 方法对不平衡的谣言数据集进行增强,然后融合突发公共卫生事件情感分类和谣言识别任务的领域信息,提出基于Transformer(获取谣言识别和情感分类任务的共享特征)和BiLSTM模型(获取谣言识别任务独有特征)并融入注意力机制的多任务谣言识别模型。
- Results. 多任务学习的模型的F1值要比不平衡模型和单任务学习模型高出多少多少。
- Limitation. 多任务学习的辅助任务仅包括情感二分类任务,需要对负面情感进行更细粒度的分类。【Q. 主任务是指谣言识别任务。如何实现多任务?】
- Conclusion. 基于领域数据增强和多任务学习的方法能够有效提高突发公共卫生时间谣言识别的分类效果。
多任务学习
- 多任务学习是一种归纳迁移机制,旨在通过共享参数和特征,使用辅助任务来提高主任务的性能和泛化性。
- 广泛用于分词、词性标注和文本分类等自然语言处理任务,并取得了良好的效果。【可以用在数值型数据吗】
基于数据增强和多任务的谣言识别模型
- 本文将情感分析作为辅助任务