在2020年EMNLP会议中约有24篇papers关于text classification,尽管在该任务上的研究已很成熟,但它仍是一个热点。其主要原因text classification是文本处理中一个最常见又基础的任务,它会因不同的应用场景产生不同的问题,进而带来持续不断的研究思路。现将2020年EMNLP会议中关于该任务的paper进行下汇总与整理:
关于文本分类中解释性
A Diagnostic Study of Explainability Techniques for Text Classification
The main idea:探究在text classification中为何选择某种模型结构,不同的模型在该任务有什么区别,以及模型的表现与人的表现存在的差异与关系。
Learning Variational Word Masks to Improve the Interpretability of Neural Text Classifiers
The main idea:提出Variational Word Masks概念,从词的角度去探究分类模型的可解析性。
Assessing Robustness of Text Classification through Maximal Safe Radius Computation
The main idea: 提出一种“最大安全半径”的计算方法来评估文本分类的鲁棒性
提升文本分类模型的表征能力
FIND: Human-in-the-Loop Debugging Deep Text Classifiers
The main idea:分类模型学习到的潜在特征有很多是无用,论文构建框架让人dugub的方式过滤那些隐藏不相关的特征,进而提升分类效果。
Be More with Less: Hypergraph Attention Networks for Inductive Text Classification
The main idea:应用图神经网络,提出Hypergraph Attention Networks 结构进行归纳性文本分类。
Towards More Accurate Uncertainty Estimation In Text Classification
The main idea:在文本任务中,提出一个新的准确不确定分数,降低获胜分数的过度自信的影响,同时考虑不同类别不确定性的影响。
Identifying Spurious Correlations for Robust Text Classification
The main idea:过滤掉文本中跟label虚假关系的词,识别正关系的词,进而提升文本分类的稳定性。
Structure-Tags Improve Text Classification for Scholarly Document Quality Prediction
The main idea:类比HANs模型,将学术文档中的结构标签数据加入文档中进行学习,提升分类效果。
End to End Binarized Neural Networks for Text Classification
The main idea:提出一种端到端的二值网络进行文本分类。
多任务进行文本分类
Task-oriented Domain-specific Meta-Embedding for Text Classification
The main idea:将面向特定领域中的meta-learning加入Text classification任务中,形成多任务学习框架。
在文本分类中加入对抗学习
BAE: BERT-based Adversarial Examples for Text Classification
The main idea:基于bert,生成对抗样例,进行Text Classification。具体在原始文本中替换和插入标记,方法是屏蔽文本的一部分,并利用BERT-MLM生成屏蔽标记的对抗样例。
Adversarial Self-Supervised Data-Free Distillation for Text Classification
The main idea:利用数据蒸馏方式进行文本分类,常规方式很依赖原始数据,针对该问题,在数据蒸馏过程中使用对抗学习的思想。
解决数据标注问题
Less is More: Attention Supervision with Counterfactuals for Text Classification
The main idea:人类和机器智能结合起来进行注意力监督,提高文本数据的标注质量。
样本不平衡性问题
HSCNN: A Hybrid-Siamese Convolutional Neural Network for Extremely Imbalanced Multi-label Text Classification
The main idea:提出混合形式的CNN网络解决多标签文本分类中的样本极致不平衡性问题。
Balancing via Generation for Multi-Class Text Classification Improvement
The main idea:提出一种文本生成方法,解决样本的不平衡性。
少样本学习
An Empirical Study on Large-Scale Multi-Label Text Classification Including Few and Zero-Shot Labels
The main idea:应用hierarchical methods based on Probabilistic Label Trees(PLT)方法解决多标签文本分类中Zero-Shot 问题。
弱监督学习
META: Metadata-Empowered Weak Supervision for Text Classification
The main idea:将meta数据与text文本融合训练一个丰富的文本网络,利用其中的主题进行弱监督学习。
Multi-pretraining for Large-scale Text Classification
The main idea:将自监督学习与弱监督学习一起融合形成多个预训练模型,提升文本分类效果。
Cross-Lingual Text Classification with Minimal Resources by Transferring a Sparse Teacher
The main idea:提出一个迁移稀疏的教师模型进行低资源的夸语言文本分类。
Denoising Multi-Source Weak Supervision for Neural Text Classification
The main idea:一个对多个数据源进行降噪的弱监督文本分类方法。
无监督学习
Text Classification Using Label Names Only: A Language Model Self-Training Approach
The main idea:一种只利用label的名称进行无监督文本分类的方法,主要思路是利用label名称生成对应的词库,然后再进行分类。
WNUT-2020 Task 2
可以看出,在text classification任务上,研究集中在表征学习,和弱监督学习上。在真正的项目环境中,一个共性的问题就是标注数据的缺乏。所以,聚焦在利用少量资源进行文本分类任务,不仅是学术的研究方向,更是应用场景的驱动。后续会就其中具有代表性的paper进行详细分享。
若想打包获取paper资源,可关注笔者公众号留言获取:自然语言处理算法与实践