【NLP】文本分类综述

本文概述了文本分类的应用场景,如情感分析、话题标注、新闻分类等,并介绍了各种传统和深度学习模型,如朴素贝叶斯、SVM、RNN、BERT等。讨论了数据预处理、特征提取方法以及模型集成。同时,提出了未来研究的挑战,包括零样本/少样本学习、外部知识融合、多标签分类和特殊领域文本处理。模型的鲁棒性和可解释性也是当前关注的重点。
摘要由CSDN通过智能技术生成

文本分类综述

文本分类的应用场景

  • sentiment analysis (SA)
  • topic labeling (TL)
  • news classification(NC)
  • question answering (QA)
  • dialog act classification (DAC)
  • natural language inference (NLI)
  • event prediction (EP)

文本分类模型

Shallow Learning Models

数据预处理:

  • word segmentation
  • data cleaning
  • data statistics

对原始数据进行人工特征提取,单词向量化。

  • Bow
  • N-gram
  • TF-IDF
  • word2vec
  • GloVe

主要的模型有:

  • NB (朴素贝叶斯)
  • HMM (隐形马尔可夫模型)
  • K-Nearest Neighbors (KNN)
  • SVM
  • DT & RF(决策树和随机森林)
  • XGBoost
  • LightGBM
  • 模型集成,例如RF、XGBoost、AdaBoost和stacking。

Deep learningmodels

  • A multilayer perceptron (MLP)
  • recursive neural network (ReNN)
  • recurrent neural network (RNN)
  • Convolutional neural networks (CNNs)
  • Attention network( hierarchical attention network (HAN) 分层注意力机制)
  • Transformer(ELMo 、GPT、BERT、XLNET)
  • GNN(图神经网络)

未来的研究和挑战

从数据、模型、表现三方面描述未来的研究和挑战

Data

  • Zero-shot/Few-shot learning(爱上一匹野马,家里却没有草原)
  • The external knowledge(增加外部知识可以提升模型性能,但是如何添加还不知道)
  • The multi-label text classification task(多标签文本分类需要充分考虑标签之间的语义关系,模型的嵌入和编码是有损压缩的过程。 因此,如何减少训练过程中层次语义的丢失以及如何保留丰富而复杂的文档语义信息仍然是一个亟待解决的问题。)
  • Special domain with many terminologies(具有许多术语的特殊领域。特定领域中的文本(例如金融和医学文本)包含许多特定的单词或领域专家可理解的语,缩写等,这使现有的经过预训练的单词向量难以使用)

Model

Performance

  • The semantic robustness of the model(近年来,研究人员设计了许多模型来提高文本分类模型的准确性。 但是,如果数据集中有一些对抗性样本,则模型的性能会大大降低。 因此,如何提高模型的鲁棒性是当前研究的热点和挑战。)
  • The interpretability of the model(如何提升模型的可解释性,也是一个待解决的问题)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值