基于数据增强和多任务学习的突发公共卫生时间谣言识别研究
摘要
- Motivation. 通过引入多任务学习模型和数据增强方法,解决突发公共卫生事件情景下谣言识别任务数据不平衡且带标签数据量少的问题。
- Methods. 首先提取突发公共卫生事件谣言文本特征构建替换词表,基于扩展同义词表构建 CEDA 方法对不平衡的谣言数据集进行增强,然后融合突发公共卫生事件情感分类和谣言识别任务的领域信息,提出基于Transformer(获取谣言识别和情感分类任务的共享特征)和BiLSTM模型(获取谣言识别任务独有特征)并融入注意力机制的多任务谣言识别模型。
- Results. 多任务学习的模型的F1值要比不平衡模型和单任务学习模型高出多少多少。
- Limitation. 多任务学习的辅助任务仅包括情感二分类任务,需要对负面情感进行更细粒度的分类。【Q. 主任务是指谣言识别任务。如何实现多任务?】
- Conclusion. 基于领域数据增强和多任务学习的方法能够有效提高突发公共卫生时间谣言识别的分类效果。
多任务学习
- 多任务学习是一种归纳迁移机制,旨在通过共享参数和特征,使用辅助任务来提高主任务的性能和泛化性。
- 广泛用于分词、词性标注和文本分类等自然语言处理任务,并取得了良好的效果。【可以用在数值型数据吗】
基于数据增强和多任务的谣言识别模型
- 本文将情感分析作为辅助任务,谣言识别作为主任务,通过任务之间的共享参数和特征来辅助谣言识别。考虑到谣言识别和情感分类任务包括共享特征和私有特征,因此本文模型采用参数硬共享机制,即两个任务共享隐层,同时分别输出分类结果,从而降低过拟合风险。
- 本文提出了一个将数据增强和多任务学习相结合的突发公共卫生事件谣言识别模型,由数据增强层、共享层、多任务学习层三部分组成。首先基于改进 EDA 模型 CEDA 对突发公共卫生事件谣言数据集进行增强【基于同一个微博数据集预处理后得到,情感分类数据和谣言识别数据,是分开的哦】;然后将谣言识别数据和情感分类数据输入 Transformer 共享层,将情感分类作为辅助任务,提取两个任务共同的隐式特征;为了更好得进行谣言识别,将 Transformer 共享层的输出反馈到融合注意力机制的 BiLSTM 模型中,以捕获任务特有的特征;最后使用 Sigmoid 函数完成突发公共卫生事件谣言识别和情感分类。【数据增强和多任务是独立的】
实验结果与分析
- 数据集
% 谣言识别数据集(CHECKED扩展数据集):883条谣言文本、1855条非谣言文本;
% 情感数据集:背景政务数据资源网,情感倾向为正向的数据2539条,情感倾向为负向的数据1690条。
% 需注意:都是分类数据集,如果是一个分类一个拟合的话,是否还适用呢?
- 对比实验
(1)数据增强对比实验:选择8种数据增强方法将训练集突发公共卫生事件谣言文本数据增强1倍,基于MTL分类模型进行对比。
(2)多任务学习对比实验:为评估本文提出的基于Transformer和BiLSTM的多任务分类模型有效性,选取10个模型进行对比。
结语-局限性
- 基于原始文本的数据增强方法对原始语义的改变较小,因此下一步的研究中将探究特定情景下基于表示的数据增强方法对模型性能的提升。
- 对于辅助任务,本文仅使用了突发公共卫生事件中二分类的情感数据,但是谣言中负面情绪更多,因此需要对负面情感进行更细粒度的分析从而进一步提高主任务的准确率。
- 本文提出的共享层采用硬参数共享的方式共享全部的参数和特征,但是不同的参数对于情感和谣言任务的捕捉能力可能不同,因此在未来的研究中我们将探究基于软参数共享的方法对不同任务之间的参数进行距离约束。
思考
- 首先,本文的框架较为清晰,基于两个不同数据集,拿主任务数据集去做数据增强,作为共享Transformer的输入**【首先得有不同任务的数据集】;共享层共享全部参数和特征,提取出共有隐式特征,作为多任务学习层的输入【就利用Transformer去提取共有的隐式特征就好啦】;利用特定任务的神经网络模型完成任务(主任务用BiLSTM降维),最后利用Sigmoid函数进行分类预测【后面并行执行各任务】**。
- 需要明确再入院问题中主任务和辅助任务如何划分,如何找不同的数据集;需要整理现有数据集,看能不能实现主任务和辅助任务的组合。
- 数据增强和任务执行逻辑是独立的,只是作为一个输入,因此,数据重采样算法可以先做。再查查其他文献,看有没有二者结合的研究。
- 数值类型是否可以用现有的工具(如Transformer)?是否可以用多任务学习来实现?基于正则化的多任务学习又是什么样子的?
基于正则化的半监督多任务学习算法研究
摘要
- 基于参数共享的半监督多任务学习方法
将基于l2范数正则化的最小二乘支持向量机与多任务学习相结合,假设每个相关任务的分类超平面函数由公共函数l0和私有函数l1组成,使得模型能够更好学习相关任务之间共享参数的信息。【感觉可以用】 - 基于约束共享的半监督多任务特征选择方法
在改进多任务最小二乘支持向量机作为分类器来挖掘相关任务之间的参数共享信息的基础上,提出了基于约束共享的半监督多任务特征选择方法。利用l2,1范数正则化项,充分利用相关任务的有标签和无标签的样本数据,学习每个任务的系数特征选择矩阵,同时通过给特征选择矩阵添加全局约束来挖掘所有任务的共享结构。
正则化多任务学习方法
- 正则化多任务学习:将正则化项引入目标函数,约束任务之间的相关性。
- 优点:可以利用共享机制实现稀疏化,正则化可以通过对模型参数的限制和优化,从而有效地包含多任务体系结构的孤立任务,而简单的正则化多任务学习并不能有效地使用相关知识,而且在相关信息提取方面有很多不足之处,常与其他技术结合使用。
多任务最小二乘支持向量机
- 假设每个相关任务学习得到的分类超平面都共享一个中心超平面,同时为了保持每个相关任务的独特性,每个相关任务学习得到的分类超平面还相对于中心超平面存在一个偏置,通过挖掘相关任务共享的模型参数来提高每个相关任务的学习效果。【求解二次规划问题】
- 多任务最小二乘支持向量机方法,将支持向量机中的不等式约束改为了等式约束,同时将求解二次规划问题转化为了求解线性方程,极大提高了训练速度和学习性能。
改进多任务最小二乘支持向量机
- 上述方法对相关任务的公共参数和各个任务的参数都使用同一个核函数来挖掘共享的参数信息,如果每个任务数据分布的具体情况不尽相同,那么可能会导致共享参数信息挖掘不够充分。所以提出假设每个任务的模型由一个公共模型和一个私有模型构成,那么每个任务的分类超平面函数由一个公共函数和一个私有函数组成,采用不同的核函数组合来挖掘共享的参数信息。
多任务特征选择模型
- 假设特征选择函数在相关任务之间是共用的,可以发现相关任务之间的共享信息。指定特征选择函数,每个任务t的特征选择函数为ft,不同特征选择函数的公共部分可以用正则化项编码表示。
思考
- 感觉可以参考,但是很抽象,需要找找代码。
异构多任务学习以及任务分组效率研究
- 多任务学习定义分类很系统,非常值得参考。