2020年EMNLP关于文本分类的paper汇总

在2020年EMNLP会议中约有24篇papers关于text classification,尽管在该任务上的研究已很成熟,但它仍是一个热点。其主要原因text classification是文本处理中一个最常见又基础的任务,它会因不同的应用场景产生不同的问题,进而带来持续不断的研究思路。现将2020年EMNLP会议中关于该任务的paper进行下汇总与整理:

关于文本分类中解释性

A Diagnostic Study of Explainability Techniques for Text Classification
The main idea:探究在text classification中为何选择某种模型结构,不同的模型在该任务有什么区别,以及模型的表现与人的表现存在的差异与关系。

Learning Variational Word Masks to Improve the Interpretability of Neural Text Classifiers
The main idea:提出Variational Word Masks概念,从词的角度去探究分类模型的可解析性。

Assessing Robustness of Text Classification through Maximal Safe Radius Computation
The main idea: 提出一种“最大安全半径”的计算方法来评估文本分类的鲁棒性

提升文本分类模型的表征能力

FIND: Human-in-the-Loop Debugging Deep Text Classifiers
The main idea:分类模型学习到的潜在特征有很多是无用,论文构建框架让人dugub的方式过滤那些隐藏不相关的特征,进而提升分类效果。

Be More with Less: Hypergraph Attention Networks for Inductive Text Classification
The main idea:应用图神经网络,提出Hypergraph Attention Networks 结构进行归纳性文本分类。

Towards More Accurate Uncertainty Estimation In Text Classification
The main idea:在文本任务中,提出一个新的准确不确定分数,降低获胜分数的过度自信的影响,同时考虑不同类别不确定性的影响。

Identifying Spurious Correlations for Robust Text Classification
The main idea:过滤掉文本中跟label虚假关系的词,识别正关系的词,进而提升文本分类的稳定性。

Structure-Tags Improve Text Classification for Scholarly Document Quality Prediction
The main idea:类比HANs模型,将学术文档中的结构标签数据加入文档中进行学习,提升分类效果。

End to End Binarized Neural Networks for Text Classification
The main idea:提出一种端到端的二值网络进行文本分类。

多任务进行文本分类

Task-oriented Domain-specific Meta-Embedding for Text Classification
The main idea:将面向特定领域中的meta-learning加入Text classification任务中,形成多任务学习框架。

在文本分类中加入对抗学习

BAE: BERT-based Adversarial Examples for Text Classification
The main idea:基于bert,生成对抗样例,进行Text Classification。具体在原始文本中替换和插入标记,方法是屏蔽文本的一部分,并利用BERT-MLM生成屏蔽标记的对抗样例。

Adversarial Self-Supervised Data-Free Distillation for Text Classification
The main idea:利用数据蒸馏方式进行文本分类,常规方式很依赖原始数据,针对该问题,在数据蒸馏过程中使用对抗学习的思想。

解决数据标注问题

Less is More: Attention Supervision with Counterfactuals for Text Classification
The main idea:人类和机器智能结合起来进行注意力监督,提高文本数据的标注质量。

样本不平衡性问题

HSCNN: A Hybrid-Siamese Convolutional Neural Network for Extremely Imbalanced Multi-label Text Classification
The main idea:提出混合形式的CNN网络解决多标签文本分类中的样本极致不平衡性问题。

Balancing via Generation for Multi-Class Text Classification Improvement
The main idea:提出一种文本生成方法,解决样本的不平衡性。

少样本学习

An Empirical Study on Large-Scale Multi-Label Text Classification Including Few and Zero-Shot Labels
The main idea:应用hierarchical methods based on Probabilistic Label Trees(PLT)方法解决多标签文本分类中Zero-Shot 问题。

弱监督学习

META: Metadata-Empowered Weak Supervision for Text Classification
The main idea:将meta数据与text文本融合训练一个丰富的文本网络,利用其中的主题进行弱监督学习。

Multi-pretraining for Large-scale Text Classification
The main idea:将自监督学习与弱监督学习一起融合形成多个预训练模型,提升文本分类效果。

Cross-Lingual Text Classification with Minimal Resources by Transferring a Sparse Teacher
The main idea:提出一个迁移稀疏的教师模型进行低资源的夸语言文本分类。

Denoising Multi-Source Weak Supervision for Neural Text Classification
The main idea:一个对多个数据源进行降噪的弱监督文本分类方法。

无监督学习

Text Classification Using Label Names Only: A Language Model Self-Training Approach
The main idea:一种只利用label的名称进行无监督文本分类的方法,主要思路是利用label名称生成对应的词库,然后再进行分类。

WNUT-2020 Task 2

NHK STRL at WNUT-2020 Task 2: GATs with Syntactic Dependencies as Edges and CTC-based Loss for Text Classification

UET at WNUT-2020 Task 2: A Study of Combining Transfer Learning Methods for Text Classification with RoBERTa

SunBear at WNUT-2020 Task 2: Improving RoBERTa-Based Noisy Text Classification with Knowledge of the Data domain

可以看出,在text classification任务上,研究集中在表征学习,和弱监督学习上。在真正的项目环境中,一个共性的问题就是标注数据的缺乏。所以,聚焦在利用少量资源进行文本分类任务,不仅是学术的研究方向,更是应用场景的驱动。后续会就其中具有代表性的paper进行详细分享。

若想打包获取paper资源,可关注笔者公众号留言获取:自然语言处理算法与实践

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

烛之文

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值