2020年EMNLP关于文本分类的paper汇总

最新推荐文章于 2022-08-26 20:09:55 发布

烛之文

最新推荐文章于 2022-08-26 20:09:55 发布

阅读量1.1k

点赞数 1

文章标签：自然语言处理机器学习数据挖掘深度学习

本文链接：https://blog.csdn.net/u012032041/article/details/114542062

版权

在2020年EMNLP会议中约有24篇papers关于text classification，尽管在该任务上的研究已很成熟，但它仍是一个热点。其主要原因text classification是文本处理中一个最常见又基础的任务，它会因不同的应用场景产生不同的问题，进而带来持续不断的研究思路。现将2020年EMNLP会议中关于该任务的paper进行下汇总与整理：

关于文本分类中解释性

A Diagnostic Study of Explainability Techniques for Text Classification
The main idea：探究在text classification中为何选择某种模型结构，不同的模型在该任务有什么区别，以及模型的表现与人的表现存在的差异与关系。

Learning Variational Word Masks to Improve the Interpretability of Neural Text Classifiers
The main idea：提出Variational Word Masks概念，从词的角度去探究分类模型的可解析性。

Assessing Robustness of Text Classification through Maximal Safe Radius Computation
The main idea：提出一种“最大安全半径”的计算方法来评估文本分类的鲁棒性

提升文本分类模型的表征能力

FIND: Human-in-the-Loop Debugging Deep Text Classifiers
The main idea：分类模型学习到的潜在特征有很多是无用，论文构建框架让人dugub的方式过滤那些隐藏不相关的特征，进而提升分类效果。

Be More with Less: Hypergraph Attention Networks for Inductive Text Classification
The main idea：应用图神经网络，提出Hypergraph Attention Networks 结构进行归纳性文本分类。

Towards More Accurate Uncertainty Estimation In Text Classification
The main idea：在文本任务中，提出一个新的准确不确定分数，降低获胜分数的过度自信的影响，同时考虑不同类别不确定性的影响。

Identifying Spurious Correlations for Robust Text Classification
The main idea：过滤掉文本中跟label虚假关系的词，识别正关系的词，进而提升文本分类的稳定性。

Structure-Tags Improve Text Classification for Scholarly Document Quality Prediction
The main idea：类比HANs模型，将学术文档中的结构标签数据加入文档中进行学习，提升分类效果。

End to End Binarized Neural Networks for Text Classification
The main idea：提出一种端到端的二值网络进行文本分类。

多任务进行文本分类

Task-oriented Domain-specific Meta-Embedding for Text Classification
The main idea：将面向特定领域中的meta-learning加入Text classification任务中，形成多任务学习框架。

在文本分类中加入对抗学习

BAE: BERT-based Adversarial Examples for Text Classification
The main idea：基于bert，生成对抗样例，进行Text Classification。具体在原始文本中替换和插入标记，方法是屏蔽文本的一部分，并利用BERT-MLM生成屏蔽标记的对抗样例。

Adversarial Self-Supervised Data-Free Distillation for Text Classification
The main idea：利用数据蒸馏方式进行文本分类，常规方式很依赖原始数据，针对该问题，在数据蒸馏过程中使用对抗学习的思想。

解决数据标注问题

Less is More: Attention Supervision with Counterfactuals for Text Classification
The main idea：人类和机器智能结合起来进行注意力监督，提高文本数据的标注质量。

样本不平衡性问题

HSCNN: A Hybrid-Siamese Convolutional Neural Network for Extremely Imbalanced Multi-label Text Classification
The main idea：提出混合形式的CNN网络解决多标签文本分类中的样本极致不平衡性问题。

Balancing via Generation for Multi-Class Text Classification Improvement
The main idea：提出一种文本生成方法，解决样本的不平衡性。

少样本学习

An Empirical Study on Large-Scale Multi-Label Text Classification Including Few and Zero-Shot Labels
The main idea：应用hierarchical methods based on Probabilistic Label Trees(PLT)方法解决多标签文本分类中Zero-Shot 问题。

弱监督学习

META: Metadata-Empowered Weak Supervision for Text Classification
The main idea：将meta数据与text文本融合训练一个丰富的文本网络，利用其中的主题进行弱监督学习。

Multi-pretraining for Large-scale Text Classification
The main idea：将自监督学习与弱监督学习一起融合形成多个预训练模型，提升文本分类效果。

Cross-Lingual Text Classification with Minimal Resources by Transferring a Sparse Teacher
The main idea：提出一个迁移稀疏的教师模型进行低资源的夸语言文本分类。

Denoising Multi-Source Weak Supervision for Neural Text Classification
The main idea：一个对多个数据源进行降噪的弱监督文本分类方法。

无监督学习

Text Classification Using Label Names Only: A Language Model Self-Training Approach
The main idea：一种只利用label的名称进行无监督文本分类的方法，主要思路是利用label名称生成对应的词库，然后再进行分类。

WNUT-2020 Task 2

NHK STRL at WNUT-2020 Task 2: GATs with Syntactic Dependencies as Edges and CTC-based Loss for Text Classification

UET at WNUT-2020 Task 2: A Study of Combining Transfer Learning Methods for Text Classification with RoBERTa

SunBear at WNUT-2020 Task 2: Improving RoBERTa-Based Noisy Text Classification with Knowledge of the Data domain

可以看出，在text classification任务上，研究集中在表征学习，和弱监督学习上。在真正的项目环境中，一个共性的问题就是标注数据的缺乏。所以，聚焦在利用少量资源进行文本分类任务，不仅是学术的研究方向，更是应用场景的驱动。后续会就其中具有代表性的paper进行详细分享。

若想打包获取paper资源，可关注笔者公众号留言获取：自然语言处理算法与实践

烛之文

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
2
评论
2020年EMNLP关于文本分类的paper汇总

在2020年EMNLP会议中约有24篇papers关于text classification，尽管在该任务上的研究已很成熟，但它仍是一个热点。其主要原因text classification是文本处理中一个最常见又基础的任务，它会因不同的应用场景产生不同的问题，进而带来持续不断的研究思路。现将2020年EMNLP会议中关于该任务的paper进行下汇总与整理：关于文本分类中解释性A Diagnostic Study of Explainability Techniques for Text Class
复制链接

扫一扫