【NLP】文本分类综述

最新推荐文章于 2024-03-08 15:33:35 发布

不爱吃胡萝卜的小胡

最新推荐文章于 2024-03-08 15:33:35 发布

阅读量320

点赞数 1

文章标签：自然语言处理

本文链接：https://blog.csdn.net/m0_46622555/article/details/115066947

版权

本文概述了文本分类的应用场景，如情感分析、话题标注、新闻分类等，并介绍了各种传统和深度学习模型，如朴素贝叶斯、SVM、RNN、BERT等。讨论了数据预处理、特征提取方法以及模型集成。同时，提出了未来研究的挑战，包括零样本/少样本学习、外部知识融合、多标签分类和特殊领域文本处理。模型的鲁棒性和可解释性也是当前关注的重点。

摘要由CSDN通过智能技术生成

文本分类综述

文本分类的应用场景

sentiment analysis (SA)
topic labeling (TL)
news classification(NC)
question answering (QA)
dialog act classification (DAC)
natural language inference (NLI)
event prediction (EP)

文本分类模型

Shallow Learning Models

数据预处理：

word segmentation
data cleaning
data statistics

对原始数据进行人工特征提取，单词向量化。

Bow
N-gram
TF-IDF
word2vec
GloVe

主要的模型有：

NB （朴素贝叶斯）
HMM （隐形马尔可夫模型）
K-Nearest Neighbors (KNN)
SVM
DT & RF(决策树和随机森林）
XGBoost
LightGBM
模型集成，例如RF、XGBoost、AdaBoost和stacking。

Deep learningmodels

A multilayer perceptron (MLP)
recursive neural network (ReNN)
recurrent neural network (RNN)
Convolutional neural networks (CNNs)
Attention network( hierarchical attention network (HAN) 分层注意力机制）
Transformer（ELMo 、GPT、BERT、XLNET）
GNN（图神经网络）

未来的研究和挑战

从数据、模型、表现三方面描述未来的研究和挑战

Data

Zero-shot/Few-shot learning（爱上一匹野马，家里却没有草原）
The external knowledge（增加外部知识可以提升模型性能，但是如何添加还不知道）
The multi-label text classification task（多标签文本分类需要充分考虑标签之间的语义关系，模型的嵌入和编码是有损压缩的过程。因此，如何减少训练过程中层次语义的丢失以及如何保留丰富而复杂的文档语义信息仍然是一个亟待解决的问题。）
Special domain with many terminologies（具有许多术语的特殊领域。特定领域中的文本（例如金融和医学文本）包含许多特定的单词或领域专家可理解的语，缩写等，这使现有的经过预训练的单词向量难以使用）

Model

Performance

The semantic robustness of the model（近年来，研究人员设计了许多模型来提高文本分类模型的准确性。但是，如果数据集中有一些对抗性样本，则模型的性能会大大降低。因此，如何提高模型的鲁棒性是当前研究的热点和挑战。）
The interpretability of the model（如何提升模型的可解释性，也是一个待解决的问题）